• Sonuç bulunamadı

連鎖不平衡的視覺化分析系統

N/A
N/A
Protected

Academic year: 2021

Share "連鎖不平衡的視覺化分析系統"

Copied!
5
0
0

Yükleniyor.... (view fulltext now)

Tam metin

(1)

連鎖不平衡的視覺化分析系統

楊正宏

楊正宏

楊正宏

楊正宏

a

張凱琳

張凱琳

張凱琳

張凱琳

a

陳湘棋

陳湘棋

陳湘棋

陳湘棋

b

張慧朗

慧朗

慧朗

慧朗

c

谷德倫

谷德倫

谷德倫

谷德倫

b

張學

學偉

b

莊麗月

莊麗月

莊麗月

莊麗月

d a

高雄應用科技大學

高雄應用科技大學

高雄應用科技大學

高雄應用科技大學 電子工程系

電子工程系

電子工程系

電子工程系

b

高雄醫學大學

高雄醫學大學

高雄醫學大學

高雄醫學大學 生物醫學暨環境生物學系

生物醫學暨環境生物學系

生物醫學暨環境生物學系

生物醫學暨環境生物學系

c

長庚大學長庚紀念醫院

長庚大學長庚紀念醫院

長庚大學長庚紀念醫院 生物資訊中心

長庚大學長庚紀念醫院

生物資訊中心

生物資訊中心

生物資訊中心

d

義守大學

義守大學

義守大學

義守大學 化學工程系

化學工程系

化學工程系

化學工程系

a

Institute of Electronic Engineering, National Kaohsiung University of Applied Sciences

b

Faculty of Biomedical Science and Environmental Biology, Kaohsiung Medical University

c

Chang Gung Bioinformatics Center, Chang Gung Memorial Hospital, Chang Gung

University

d

Department of Chemical Engineering, I-Shou University

Abstract 連鎖不平衡 連鎖不平衡 連鎖不平衡 連鎖不平衡(Linkage Disequilibrium, LD)主要是以非主要是以非主要是以非主要是以非 獨立性的對偶基因去測量基因內部的變化 獨立性的對偶基因去測量基因內部的變化 獨立性的對偶基因去測量基因內部的變化 獨立性的對偶基因去測量基因內部的變化,,,遺傳學家,遺傳學家遺傳學家遺傳學家 常使用連鎖不平 常使用連鎖不平 常使用連鎖不平 常使用連鎖不平衡測量人口遺傳學的變化衡測量人口遺傳學的變化衡測量人口遺傳學的變化衡測量人口遺傳學的變化,,,進一步發,進一步發進一步發進一步發 現 現 現

現 SNP(single nucleotide polymorphism) 之 間的 關連之 間的 關連之 間的 關連之 間的 關連 性

性 性

性 。。。。 目 前 連 鎖 不平 衡 主要目 前 連 鎖 不平 衡 主要目 前 連 鎖 不平 衡 主要 是目 前 連 鎖 不平 衡 主要是是 利 用是利 用利 用利 用 哈 溫 平 衡哈 溫 平 衡哈 溫 平 衡(Hardy 哈 溫 平 衡

Weinberg Equilibrim和和和和EM (Expectation-Maximization)

algorithm去計算相關數值去計算相關數值,去計算相關數值去計算相關數值,,,並提供並提供遺傳學家並提供並提供遺傳學家遺傳學家遺傳學家透過高關透過高關透過高關透過高關 連性的 連性的 連性的 連性的單核型區塊單核型區塊單核型區塊來進行特徵選取單核型區塊來進行特徵選取來進行特徵選取來進行特徵選取。。。本系統是以。本系統是以本系統是以本系統是以視覺視覺視覺視覺 化 化 化 化來表達來表達來表達來表達有關有關有關有關LD Measures的數值的數值的數值的數值,,,並以其顏色的深,並以其顏色的深並以其顏色的深並以其顏色的深 淺表示不同 淺表示不同 淺表示不同 淺表示不同的的的的SNP之間的關連性之間的關連性之間的關連性,之間的關連性,,顏色愈深關連性愈,顏色愈深關連性愈顏色愈深關連性愈顏色愈深關連性愈 大 大 大 大,,,,進一步進一步進一步進一步幫助幫助幫助幫助遺傳學家遺傳學家方便去統計和處理遺傳學家遺傳學家方便去統計和處理方便去統計和處理方便去統計和處理。。。另。另另外系另外系外系外系 統 提供 不同 型態 的資 料匯入和序列資料的相關查 統 提供 不同 型態 的資 料匯入和序列資料的相關查 統 提供 不同 型態 的資 料匯入和序列資料的相關查 統 提供 不同 型態 的資 料匯入和序列資料的相關查 詢 詢 詢 詢,,,,讓系統使用者可以更快速的統計讓系統使用者可以更快速的統計讓系統使用者可以更快速的統計SNP之間的頻率讓系統使用者可以更快速的統計 之間的頻率之間的頻率之間的頻率 並節省查詢時間 並節省查詢時間 並節省查詢時間 並節省查詢時間。。

Keywords:::連鎖不平衡:連鎖不平衡連鎖不平衡,連鎖不平衡,哈溫平衡,,哈溫平衡哈溫平衡哈溫平衡,,,EM algorithm,, ,,, SNP。

1....Introduction

單 核 酸 基 因 多 型 性(single nucleotide polymorphism, SNP)是現代個人化醫學相關性研究所選取的標誌,遺 傳學家發現特定的SNP標誌組合,可以篩選或預測患 病、致癌、藥效反應、過敏…等個人差異。因此,每 個人體質的總表現就是SNP的綜合結果,所以SNP是 個人化醫學最重要的工具之ㄧ。然而,已知人類的SNP 初估有142萬個,各別SNP的頻率不盡相同。同時,SNP 也有種族差異存在,因此,SNP的選取便是個人化醫 學相關性研究的最重要課題。 連 鎖 不 平 衡 (Linkage Disequilibrium) 是 取 出 任 二 個 Locus裡面alleles代入LD公式中,然後再算出我們所要 呈現圖形化的數值,並且利用圖形化來簡化SNP [1][2] 的選取,達到特徵選取的效果。頻率出現次數較高的 SNP,在一起出現的機率也會較高,面對高高低低的 SNP個別頻率時,遺傳學家總是偏好選取較高頻率的 SNP,因為它比較容易在族群中被發現。LD正好可以 幫我們計算這些特徵,同時分出相對頻率高低,也提 供許多單核型區塊(haplotype block)。同ㄧ區塊(block) 內的SNP群的個別SNP們,容易一起出現,其中頻率 較低的SNP便不會被選入區塊中。因此,LD measures 讓我們在篩選SNP時可以更節省時間。只要在不同區 塊中各選取一個SNP即可達到高出現率的相關性研究 數據,遺傳學家在針對疾病或是比對SNP的選取可以 達到省時省力的效果。 根據目前文獻所提供的方式,如LDA [3],以由區塊 組成的三角形來呈現每個SNP之間的關係,並藉由顏 色深淺的不同,代表可能影響的機率高低。JLIN [4] 則是以由區塊組成的正方形來顯示每個SNP之間的關 連性,雖然其呈現方式二種軟體差不多,不過JLIN較 能顯示SNP之間高相關性的區域幫助使用者針對這部 份選取。由於這些軟體都有共同的缺點,即沒有提供 資 料庫 方面 的連 結, 讓使 用者 無 法 查 詢 到 有 用 的 rs_fasta序列資料,方便系統使用者針對輸入資料。這

(2)

些軟體在引入資料時,所提供的資料格式型態太少, 無法讓使用者自行選擇想要輸入的格式,加上圖像視 覺化方面,無法更進一步的了解各個SNP之間距離, 影響彼此之間的關連性判斷與連鎖資訊的提供。 為了改善這些缺點,本系統首先提供不同類型的資料 輸入,讓系統使用者有彈性的選擇,還提供查詢功 能,節省使用者搜尋序列資料的時間。系統也提供文 字和圖形二種顯示介面,一方面可以了解LD在運算過 程中所產生的數值幫助使用者更容易去分析資訊,另 一方面以2D、3D圖形化來顯示關連性區域部份,讓使 用者在選擇SNP進行處理作業時能以最短的時間得到 最佳的效果。 2、、、、系統設計系統設計系統設計系統設計 2-1 系統流程 本系統流程圖如 Figure 1 所示,系統使用者開啟程式 時會先要求匯入資料檔案,資料檔案可分為二種匯入 方式,(1)選取以建立好的檔案如 Excel 檔,(2)從系統 新增部份鍵入所以查詢的資料,使用者可以自行輸入 Locus alleles sample,本系統也另外提供查詢方式方便 使用者一邊鍵入 Locus Measures 時可以一邊查詢 rs_fasta 序列資料的相闗資料節省上網查詢的時間。系 統在確認資料己匯入並經過程式的計算過後會產生 二種顯示方式(1)LD value 顯示 Locus alleles 的各項數 值 , 並 且 把 數 值 做 出 圖 形 化 來 統 計 數 量 , (2)LD Measures 是以圖形來顯示各 SNP 之間的關連性,主要 有 D、D’、R 、delta、Q 和 rho 5 種視覺化呈現方式。 2 Figure 1 系統流程圖 2-2 系統設計 本系統設計分為 4 個主要的部份(1)輸入模組(2)查詢 模組(3)處理模組(4) 輸出模組,關係圖如 Figure 2 所 示。 Figure 2 系統設計統程圖 (1) 輸入模組: 可匯入 Excel(.xls),Word(.doc)和文字文件(.txt)等 文件格式,方式使用者以最適合的模式匯入想要 測量的相關資料。 (2) 查詢模組: 利用 MySQL 資料庫查詢 rs_fasta 序列資料,主要 是 方 便 使 用 者 可 以 透 過 查 詢 找 到 我 們 所 要 的 alleles、位置和序列資料的相關資料讓使用者在輸 入測試資料時可以節省掉很多查詢時間。 (3) 處理模組: 處理模組是整個系統的核心所在,主要是利用 Alleles 結合 EM algorithm 和哈溫平衡去計算 LD Measures,計算我們想要的測量結果。 (4) 輸出模組: 輸出模組是使用視覺化加上文字解說的模式來呈 現,本系統除了利用圖形化來呈現 SNP 之間關連 性的影響,還使用文字來呈現各個 SNP 之間所互 相影響的數值以方便遺傳學家們之間對於疾病研 究的發展。 2-3 資料庫 本系統是以 My SQL Server 建構有關 rs_fasta 序列的 資料庫,如 Figure 3 所示我們以 JBuilder 內部元件去 呈現 MySQL 的內部資料,rs_fasta 序列來源取自於 NCBI (http://www.ncbi.nih.gov/index.html)網站上一些 有關生物的 SNP 資料。資料庫內部包含 Human、Mouse

(3)

及 Rat 的 SNP 相關資料,讓使用者可以透過查詢 rs_fasta 序列資料找到想要的資訊。 Figure 3 資料庫顯示圖 2-4 LD Measures 統計 遺傳學家為了透過SNP取得LD Measures [6] 的相關 資訊來研究SNP之間相互的關連性,使用哈溫平衡和 EM (Expectation -Maximization) algorithm [5]計算出 LD Measures的數值,更進一步的把數值視覺化,其流 程步驟如下: (1) 計算 Haplotype Frequencies: 本系統計算Haplotype Frequencies時最主要是使用哈 溫平衡和EM algorithm做數值的處理,我們先選取二 個locus,每個locus都是由一對alleles所組成,當我們 要計算LD Measures [6]時,引用到Devlin and Risch (1995) 所提出的理論,將二個Locus alleles變成一個 2*2的乘法表,如Table 1所示。

Table 1 2*2 Locus alleles 乘法表

(2) 計算 Disequilibrium CoefficientDAB: 以連鎖平衡(Linkage Equilibrium)來計算每一個出現 的 機 率 為PAB=PAPBPaB=PaPBPAb =PAPb、 b a ab PP P = , 但 是 連 鎖 不 平 衡 的 機 率 計 算 B A AB P P P ≠ 、 B a aB PP P ≠ 、 b A Ab P P P ≠ 、 b a ab PP P ≠ 和 連鎖平衡不一樣,必須還要考慮到一個不平衡的係數 AB D ,所以我們必須帶入DAB=PAB−PAPB算式算出 AB D 值,帶入DAB值後連鎖不平衡每個alleles出現的 機 率 為 PAB=PAPB+DABPaB=PaPBDAB 、 AB b A Ab P P D P = − 、 AB b a ab PP D P = + 。 (3) 計算LD Measures 當每個 Haplotype Frequencies 都計算出來之後,我們 可參考 Table 2 的公式計算出 SNP 之間的 D、D’、 2 R 、delta、Q 和 rho 值。 Table 2 LD Measures 公式圖

3....Results and Discussion

本系統的輸入格式主要是以文字檔為主,例如 Excel、 文字文件和 Word 都可以做為輸入的工具如 Figure 4 所示,也可以用本系統的新增方式來加入測試資料如 Figure 5 所示。首先要輸入 sample size 的數量,sample size 主要為每個 Locus 內部的 alleles 樣本數,接下來 就是輸入 locus number 的數量,locus number 的數量 即為有多少個 SNP,再透過本系統去顯示出 SNP 之間 的關連性。

(4)

Figure 5 新增資料範例圖 系統也提供方便的查詢工具如 Figure 6 所示,只要使 用者輸入相關的 rs_fasta 序列資料,系統就能通過資 料庫查詢相關的資料如 alleles 和距離位置…..等。 Figure 6 序列資料查詢畫面圖 將測試資料匯入之後系統會自動執行換算公式帶出 我們所要的數值,在功能選項部份如 Figure 7 所示。 系統畫面分為二種不同形式的顯示方法,一為 Text Out,主要為各項數據以文字化來呈現,一為 Graphic Out,主要是以畫面代表顏色的深淺,顏色愈深表示 這二個 SNP 可能導致病因的機率愈大。在 LD value 所顯示的是所有 LD 內部的數值,如每個 SNP 內部所 有 ACGT 的比例、Haplotypes 的數值和 LD Measure 的各項數據等。 圖形方面也使用 2D 和 3D 圖形來分別呈現,一方面以 2D 圖形的顏色視覺差異來表現關連性的高低,一方 面以 3D 圖形的圖形高低和距離來表現關連性的高低 和距離造成的影響,讓一般系統使用者可以很明顯的 看出其中的差異性。 Figure 7 系統畫面圖 本系統跟LDA [3] 和JLIN [4]這些軟體的功能比較可 以參考Table 3所示: Table 3 各軟體比較表 (1)輸入資料方面,LDA在輸入格式只能用Txt檔來匯 入資料,JLIN提供的輸入格式方面相同的也是單一種 輸入資料型態Excel,在本系統中我們提供多種格式的 輸 入 檔 案 類 型 Excel(.xls) 、 文 字 文 件 (.txt) 和 word(.doc),讓系統使用者以最適合自己的方式來輸入 資料。 (2)另外查詢功能也提供便利的服務,讓使用者在輸入 測試資料時,不必再另外找尋資料,省下搜尋的時間 和精力,這也是LDA和JLIN這二個軟體所沒有的。 (3)在 2D 圖形化方面,我們可以透過滑鼠移動到方塊 圖上面探查二個 SNP 之間的遠近並且可以用顏色深 淺來判定 SNP 之間的相關性,也可以透過 3D 圖形來 了解距離遠近是否也會影響到 SNP 之間的關連性,以

(5)

便研究連鎖不平衡對於 SNP 的影響,目前 3D 圖形化 是我們研究的一個重點,也是這幾個軟體所沒有的突 破。 4....Conclusion 連鎖不平衡目前是用在簡化SNP的選取,達到特徵選 取的效果,出現頻率較高的SNP在一起出現的機率相 對的也會比較高,所以使用視覺化來呈現SNP為目前 連鎖不平衡常用的方式之一。 有些程式除了使用圖形去表達各SNP之間的高闗連性 之外,距離的遠近也是影響SNP之間關連性的因素之 一。本系統在視覺化方面採取2D和3D的呈現方式,除 了 以往 常用 的以 顏色 深淺 來表 達 之 間 的 關 連 性 之 外,還提供關連性區塊的顯示讓系統使用者可以一目 了然。加上3D視覺方面,以3D立體圖來呈現SNP之間 的高關連性,幫助系統使用者在針對SNP之間的選取 能提高效率。 連鎖不平衡的研究現在多為實驗後做統計動作,使用 本系統所提供的視覺化功能除了有助於在選取SNP時 節省不少時間,更能進一步的幫助遺傳學家在針對大 範圍的SNP進行特徵選取時有效的規劃出其中的關連 性,這對於遺傳學家在生物研究上能提供進一步的發 展。 參考文獻 參考文獻 參考文獻 參考文獻

[1] Hoh, J., (2003), SNP haplotype tagging from DNA pools of two individuals, BMC Bioinformatics 2003, 4:14.

[2] Huang, W., (2005), Linkage disequilibrium sharing and haplotype-tagged SNP portability between populations, PNAS, Vol. 103, no5, 1418:1421.

[3] Keyue, D., Zhou, K., He, F. and Yan, S., (2003), LDA—a java-based linkage disequilibrium analyzer, Bioinformatics Applications Note, Vol. 19, no.16, 2147:2148.

[4] Carter, K.W., McCaskie, P.A. and Palmer, L.J., (2006), JLIN: A java based linkage disequilibrium plotter, BMC Bioinformatics 2006, 7:60.

[5] Slatkin M. and Excoffier, L., (1996), Testing for linkage disequilibrium in genotypic data using the Expectation-Maximization algorithm, Heredity 76,

377:383.

[6] Devin, B. and Risch, N. , (1995), A Comparison of Linkage Disequilibrium Measures for Fine-Scale Mapping, Genomics 29, 311:322.

Referanslar

Benzer Belgeler

The mechanisms of nicotine- induced carcinogenesis were demonstrated in our recent report (Toxicology and Applied Pharmacology, 2004, in press) indicated as specific binding

 先前有許多文獻指出吸煙是引發肺癌的重要因子之ㄧ (1,2) 。我們在先前 (Tox icology and Applied Pharmacology, 2004)

擔任助理館員的職位已有半年了,我很感恩當初朝裕館員留下我成為數位典

[r]

[r]

[r]

Results showed that neighborhoods with a higher percentage of elderly and a higher percent age of people with functional limitation were associated with individual poorer

The PGN-induced COX-2 expression was attenuated by the ASK1 dominant negative mutant (ASK1DN), a JNK inhibitor (SP600125), the JNK1 dominant negative mutant (JNK1DN), the JNK2DN,