• Sonuç bulunamadı

肝癌病患蛋白質體研究資料與臨床資料整合資訊管理系統

N/A
N/A
Protected

Academic year: 2021

Share "肝癌病患蛋白質體研究資料與臨床資料整合資訊管理系統"

Copied!
105
0
0

Yükleniyor.... (view fulltext now)

Tam metin

(1)臺北醫學大學醫學資訊研究所 碩士論文. 肝癌病患蛋白質體研究資料與臨床資料整合資訊管理系統. Development of a Laboratory Information Management System for Integrating of Diagnosis Proteomics and Patient Clinical Data in Hepatocellular carcinoma. 指導教授 劉建財 副教授 邱泓文 助理教授. 研究生:李孟信 撰. 中華民國九十三年六月 June,2004. 1.

(2) 目錄 頁數 標題 ............................................................................................................................................i 審定書 .......................................................................................................................................ii 上網授權書 ..............................................................................................................................iii 國科會授權書 ..........................................................................................................................iv 誌謝 ..........................................................................................................................................vi 目錄 .........................................................................................................................................vii 表目錄 ....................................................................................................................................viii 圖目錄 ......................................................................................................................................ix 中文摘要 ...................................................................................................................................x 英文摘要 ..................................................................................................................................xi 第一章 緒論 1.1 背景說明 ...................................................................................................................13 1.2 蛋白質體學概述 .......................................................................................................14 1.3 研究動機 .....................................................................................................................5 1.4 研究目的 ...................................................................................................................19 第二章 文獻探討 2.1 建置蛋白質體資訊系統 ...........................................................................................22 2.2 蛋白質體在醫學上的應用 .......................................................................................24 2.3 蛋白質體的肝癌研究現況 .......................................................................................26 2.4 國內研究現況 ...........................................................................................................30 第三章 研究方法 3.1 蛋白質體資訊系統需求 ...........................................................................................32 3.2 肝臟診斷資料 ...........................................................................................................35 3.3 系統分析及設計 .......................................................................................................36 3.4 資料模型 ...................................................................................................................38 第四章 研究結果 4.1 系統及建置平台 .......................................................................................................41 4.2 系統功能說明 ...........................................................................................................43 4.3 網站導覽 ...................................................................................................................46 4.4 整合肝癌診斷資料 ...................................................................................................67 4.5 資料整合 ...................................................................................................................68 4.6 資料探索 ...................................................................................................................71. 2.

(3) 第五章 討論與結論 5.1 系統評述 ...................................................................................................................77 5.2 系統特性討論 ...........................................................................................................67 5.3 未來發展 ...................................................................................................................71 5.4 系統評估 ...................................................................................................................73 5.5 結論 ...........................................................................................................................87 第六章 文獻來源 中文文獻 ..........................................................................................................................88 英文文獻 ..........................................................................................................................88 Website Information .........................................................................................................81 附錄一 肝癌有關的蛋白質點 ............................................... 83 附錄二 肝功能檢查一覽表 ................................................. 99 附錄三 蛋白質體實驗條件 ................................................. 90 附錄四 上傳資料檔案格式 ................................................. 92 附錄五 問卷…………………………………………………………………………………94. 3.

(4) 圖目錄 圖 2-1:疾病的五項原因…………………………………………………………………..15 圖 3.1:蛋白質體研究的實驗步驟………………………………………………………..22 圖 3.2:資料流程圖…………………………………………………………………………27 圖 3.3:實體關係的資料模型圖……………………………………………………………29 圖 4-1:系統架構圖及所含元件……………………………………………………………31 圖 4-2:系統登錄畫面……….…………………………………………………………...35 圖 4-3:二維電泳膠片標題檢視.…….……………………..……………………………36 圖 4-4:二維電泳膠片檢視………………..………………………………………………37 圖 4-5:二維電泳膠片檢視(細部檢視)……………………………………………………38 圖 4-6:蛋白質 Mass data 及影像放大…………………………………………………..39 圖 4-7:病患診斷肝功能及各項實驗條件檢視…………………………………………..40 圖 4-8:蛋白質註解資訊…………………………………………………………………..41 圖 4-9:資料查詢畫面……………………………………………………………………..42 圖 4-10:資料查詢畫面…………………………………………………………………….43 圖 4-11:資料查詢結果畫面……………………………………………………………….44 圖 4-12:查詢結果選擇影像的檢視模式……………………………………………….…45 圖 4-13:蛋白質出現頻率統計圖………………………………………………………….46 圖 4-14:使用者群組管理………………………………………………………………….47 圖 4-15:使用者群組管理畫面…………………………………………………………….48 圖 4-16:實驗條件設定畫面……………………………………………………………….49 圖 4-17:實驗組詳細設定畫面…………………………………………………………….50 圖 4-18:資料上傳畫面………………………………………………………………….…51 圖 4-19:資料新增、修改………………………………………………………………….52 圖 4-20:蛋白質資料清單………………………………………………………………….53 圖 4-21:臨床資料、蛋白質資料、二維電泳參考圖…………………………………….54 圖 4-22:比對與參考影像切換按鈕……………………………………………………….54 圖 4-23:系統網站導覽…………………………………………………………………….55 圖 4-24:資料上傳畫面…………………………………………………………………….58 圖 4-25:二維電泳膠片資料輸入步驟…………………………………………………….59 圖 4-26:資料新增畫面…………………………………………………………………….60 圖 4-27:查詢畫面………………………………………………………………………….61 圖 4-28:查詢畫面………………………………………………………………………….61 圖 4-29:查詢結果的文字畫面…………………………………………………………….63 圖 4-30:查詢結果可切換影像檢視……………………………………………………..63. 4.

(5) 圖 4-30:查詢結果蛋白質出現頻率統計………………………………………………..64 圖 4-31:診斷與蛋白質體的資訊…………………………………………………………64 圖 4-33:蛋白質註解資訊………………………………………………………………..65. 5.

(6) 表目錄 表 1:86-91 年國內肝癌統計……………………………………………………………… 15 表 5-1:HCC-M DATABASE 比較的差異表………………………………………………73 表 5-2:YPRC-PDB 比較的差異表…………………………………………………………75 表 5-3:問卷樣本個數統計…………………………………………………………………79 表 5-4:問卷信度分析表……………………………………………………………………81 表 5-5:問卷效度分析表……………………………………………………………………81. 6.

(7) 論 文 摘 要 論文名稱:肝癌病患蛋白質體研究資料與臨床資料整合資訊管理系統 臺北醫學大學醫學資訊研究所 研究生姓名:李孟信 畢業時間: 92 學年度 第 二 學期 指導教授:劉建財 臺北醫學大學醫學資訊研究所 副教授 協同指導教授:邱泓文 臺北醫學大學醫學資訊研究所 助理教授 內文. 肝癌一直是台灣的重大疾病,而目前國內整合蛋白質體學及肝癌的研究,仍缺乏一個完 善的肝癌蛋白質體整合研究資料管理系統。本研究主要利用動態網頁(Active server Pages,ASP)、web 伺服器(Windows 2000 IIS)及資料庫(Microsoft Access),統合肝癌的 診斷及蛋白質體研究資料,建構一個以 web-based 為基礎的肝癌蛋白質體研究資料管理 系統。研究者可以透過瀏覽器同時取得肝癌診斷及蛋白質體的研究資訊。本系統主要提 供下列功能包含:1 建立實驗室資料管理系統,將實驗數據作有系統地存取和管理;2 同時提供醫療診斷及蛋白質體資料檢視,不同構面的資料檢視協助發現肝癌早期診斷指 標;3 提供資料分享機制。本論文利用資訊工具,建立蛋白質體學資料管理系統:包括 二維電泳影像比對和經質譜比對的蛋白質及連結至蛋白質資料庫的註解資訊。加上統合 肝癌病患的基本資料如性別、血型、年齡,診斷資料中的癌症期別、病變部位,及肝功 能的檢驗資料如 GDP、GLP、ALB、TBIL 等,整合成可呈現的數據,提供使用者更深 入的資訊,有助於發現與肝癌的相關的蛋白指標(protein marker)。在瞭解該蛋白質功 能後,就有可能找到致病原因,並發展出該疾病的檢測方法、藥物,治療方法。. 7.

(8) 關鍵字: 生物資訊、實驗室資訊管理系統、蛋白質體學、肝癌. 8.

(9) Abstract Title of Thesis : Development of a Laboratory Information Management System for Integrating of Diagnosis Proteomics and Patient Clinical Data in Hepatocellular carcinoma Author:Lee Meng Hsin Thesis advised by :Liu Chen-Tsai, Chiu Hung-Wen Taipei Medical University, Graduate Institute of Medical Informatics 內文 Hepatocellular carcinoma (HCC or hepatoma) is the leading (20%) and the second (19%) cause for the mortality of male and female HCC population in Taiwan. There are increasing interests for researchers to identify novel biomarkers for HCC for the early detection and the developments of efficient therapy. An integrated-application system for the analysis of HCC data which features convenient storage and retrieving, and capable of analyzing complex information including clinical data, two-dimensional protein gel images, and specific protein was established in the study. This research take advantage of dynamic page, web Servers and database management system, developing a web-based laboratory information management system(LIMS) for integrating diagnosis proteomics and patient clinical data in HCC. The system also equipped with a powerful analytical application which can easily query for interesting protein spots and link these data to clinical information. Its web-based system. 9.

(10) further facilitates data sharing with international experts through internet easily and effectively. The three major functions that our system provide as follows: 1.. LIMS (laboratory information management system): this system is equipped for the collection of proteomic data including two-dimensional protein gel images, information for specific protein spots of interesting, annotation of proteomic information, and the integration of patient’s clinical data.. 2.. Reference area: a web-based software tool was designed to quickly link to relevant data clinical data and protein databases. This is a research-driven approach to application.. 3.. Query management: a query form in which a user can specify the variety of parameters defined in the database to search the target data. Those query parameters include pathological section information (sample ID, source), Protein information (access number, protein name, molecular weight, pI), patient information (age, gender, cancer stage) clinical data (GOT, GPT, ALP, LDH, TBIL, DBIL), and others such as the parameters of an experiment protocol, date, operators.. In conclusion, the system provide integrated data including patient’s pathological section data, patient data, clinical data, proteomic data and experimental protocols to facilitate researchers to investigate disease relationships with proteins. The LIMS also present the data combining. 10.

(11) proteomic experiment data and clinical data in a biological level, which is more meaningful to the researches.. Keywords: Bioinformatics, Laboratory Information Management Systems, Proteomics. 11.

(12) 第一章 緒論. 人類基因體計畫(Human Genome Project,HGP)於西元 2000 年 6 月公布人類基因圖草 稿,較 2005 年原定計畫提前 5 年完成[NHGRI website],電腦的應用是成功的重要關鍵 之一。加上生物技術的進步如高效率(High Through-put)及平行化(Parallel)的分析方法, 不但加速生物資訊庫資訊的累積,對於目前生命科學的研究也產生很大的影響。生物學 家必須學習面對數量龐大的資訊,而這些資訊不僅來源繁雜,也包含了生命科學研究的 各個層面:基因體學(Genomics)、轉錄體學(Transcriptomics)、蛋白質體學(Proteomics) 等等。而生物學家已無法再使用傳統的紙上作業方式去管理及解讀這些資料,必需藉由 電腦的運算能力及資料儲存環境才能對這些大量資料進行整理、分析及管理[Helfrich, 2002]。因此結合分子生物學、統計、數學、資訊科技等跨領域學門,整合成一新興的 研究領域—生物資訊學(Bioinformatics)。發展各類的資訊工具,將這些資訊整理及重組, 進一步去解決生物性的問題[Kanehisa and Bork,2003]。. 人類基因體雖已完成,但生物學家對於基因如何運作,完成各種生命現象,以及最受關 注的疾病與基因的關係,仍然不清楚其過程,無法藉由瞭解基因的功能,更進一步瞭解 人類疾病的過程原因和變化,再利用其資訊提昇改善人類健康及新式藥物的研發。生命 科學進入所謂的後基因體時代(Post Genomic Era),生物與醫學趨向整合型的研究,透過 蛋白質體研究探討基因功能為主要的研究方向之一[Maojo et al,2001]、[Navarro et al, 2003]。. 由於人類疾病幾乎都與蛋白質有關,藉由蛋白質體學的研究有助於發現與疾病的相關的 12.

(13) 蛋白指標(protein marker)。在清楚瞭解該蛋白質後,就有可能找到致病原因,並發展 出該疾病的檢測方法、藥物、治療方法。蛋白質體與臨床醫學的整合研究,也為蛋白質 體與生物資訊找到一個新的定位[Chambers et al,2000]、[Banks et al,2000]。. 後基因體時代,國內積極展開規劃「基因體醫學國家型科技計畫」的工程[基因體醫學 國家型科技計畫 website,2004],蛋白質體研究及生物資訊都是推動重點之一。藉由科 專計畫積極推動「建構肝病完整研究網絡」希望建立全球最完整、規模最大的肝組織蛋 白體資訊。這將有助於肝病、肝組織病變之研究及新藥開發,提供更靈敏的偵測及新的 治療策略[經濟部技術處 website]。本章將對後基因體的蛋白質體及生物資訊研究現況進 行相關論述,並說明本論文的研究動機和目的,並說明以肝癌為研究對象的理由。. 1.1 背景說明. 後基因體時代整個生命科學從基因體解碼,轉至探討基因的調控、蛋白質的功能、以及 疾病所關聯的基因等。在後基因體時代的生命科學研究,蛋白質體的各類分析方法是不 可或缺的。尤其在生醫研究方面,分子層次的探討更能清楚瞭解疾病的演變過程和藥物 作用的機轉[Wasinger and Corthals,2002]。生物資訊在蛋白質體和其他生命科學的研究 上擔負了重要統合和分析任務,除了有效解讀基因體時代所產生的大量資訊外,同時能 快速且深入分析高效率研究(High throughput)所累積的大量實驗數據。因此善用生物資 訊於蛋白質體的研究,將提昇蛋白質序列、結構、功能及表現等之瞭解[Vihinen,2001]。. 目前一般實驗室大多以商業軟體協助實驗數據分析,及使用網際網路資源查詢公用資料 庫以取得相關研究資料。當電腦使用已成為生命科學研究所需,有效率地利用資訊科技. 13.

(14) 來分享資訊和交換。成為研發重要的一環。. 人類基因體計畫已累積了相當多的基因資訊,例如,相關的基因、蛋白質、疾病等生物 資料庫目前尚不斷的增加中。這為後基因體時代的生物研究提供了相當豐富的資訊 [Navarro et al,2003 ]。臺灣應該善加利用這些研究成果,加強發展台灣重大疾病的研究 基礎。利用生物資訊學統合各學門研究所得資料,以開拓重要疾病之癒後、診斷、和治 療,是後基因體時代的顯學。. 1.2 蛋白質體學概述. 蛋白質體(Proteome)的概念,是在九零年代初期由澳洲 Wasinger 等人提出,用來表示 細胞或組織的基因體(genome)中表現遺傳基因的所有蛋白質的集合[Wasinger et al, 1995]。分析細胞或組織內的蛋白質萃取物,研究這些蛋白質的變化和表現(changes and expression)等之科學,通稱蛋白質體學(Proteomics)[Westermeier and Naven,2002]。. 分子生物的中心定律觀點(Central dogma):DNA 轉錄成 RNA 後轉譯為 Protein,雖然人 類基因體和其他生物基因體的解碼已陸續完成,但是基因體的序列與細胞中的蛋白質的 功能並無直接的線性關係[Westermeier and Naven,2002]、[Gromov et al,2002],因此基 因體的序列(DNA 或 RNA)無法直接預測蛋白質的功能,基因體的序列所具有的生物功 能需由細胞內的蛋白質體來體現。蛋白質體學除研究蛋白質以瞭解基因的功能外,並廣 泛應用於下列各領域的研究[Westermeier and Naven,2002]: 1. 新藥開發:快速篩選病變組織中的蛋白質標的物,檢測藥物毒性及副作用。 2. 臨床醫療:比對正常細胞與病變細胞的差異,病變細胞治療前後的差異,以尋找. 14.

(15) 疾病關聯的分子(marker)。作為臨床生化學的診斷及疾病治療的指標。 3. 微生物學研究:生物學家藉此研究細胞內的蛋白功能及分子運作系統。 4. 植物方面研究:植物育種上的應用,如探討抗病性、抗旱等品種的植物特性。. 因下列技術的改善與協助,對蛋白質體學的發展有一些正面的效益[Westermeier and Naven,2002]: 1. 高解度的二維電泳技術改善,增加了以二維電泳分離蛋白質的信賴度(reliable)及重 複性(reproducible)。 2. 影像軟體的協助可容易進行二維電泳的膠片比對,蛋白質於二維膠片中所產生的 特殊樣式(pattern),在資訊技術的協助下得到更正確的辨識結果。 3. 更靈敏、正確、高效率(high throughput)的質譜分析儀,在少量的胜. 樣本及低成. 本的條件下完成氨基酸的序列分析。 4. 基因體學的發展同時帶動了蛋白質體的發展,在基因體計畫所產生序列,這些基 因的功能需透過蛋白質來表現,才能將這些基因的資訊轉為生物性的功能。 5. 生物資訊的發展,整合高效率的實驗方式所產出的大量數據,並利用一些數學的 演算法(algorithm),改善傳統樣本的數據分析模式,進而歸納出有生物學意義的結 論。. 因蛋白質體學可廣泛應用於各項研究,在後基因體時代(post-genomic era),蛋白質體學 在生命科學中佔有相當重要的份量。. 目前蛋白質體的的實驗步驟大概可分為,蛋白質分離、蛋白質偵測、影像比對、蛋白質 判讀[Westermeier and Naven,2002]、[Liebler and Yates,2001],各項技術說明如下:. 15.

(16) 1. 蛋白質的分離:二維電泳仍是蛋白質分離的主要技術,利用蛋白質的物理化學性 質中的等電點(isoelectric point)及分子大小(size),將蛋白質於膠片(gel)中分離。 2. 蛋白質偵測:將完成的二維電泳膠片經由染色技術(silver 或 Coomassie brilliant blue R250 staining),可標示這些分離後的蛋白質。經由細胞所萃取出的蛋白質 10mg,在膠片上約可分離出 100 種以上的蛋白質,每種蛋白質的含量小至 10-20 ng (per spot)於膠體可被檢視,這樣的樣本濃度足夠質譜分析。 3. 影像分析:影像比對是蛋白質體學各項技術中的瓶頸,影像軟體仍無法進行大量 及自動化比對。透過影像軟體的協助,偵測膠片中蛋白質之間的表現差異,但 Landmarking 仍需耗費大部分的時間[Rosengren,2003]。 4. 蛋白質的判讀:譜質儀分析之 peptide mass fingerprinting (PMF),經質譜資料庫比 對,可判讀為何種蛋白質。. 上述各式分析工具不斷地在改善中,提昇了蛋白質體研究的信賴度和重複性,因此加速 了蛋白質體學的快速發展。進一步將基因體定序的自動化原理,整合至蛋白質體的研 究,可大幅提昇蛋白質體研究效率。. 1.3 研究動機. 本論文利用資訊工具將肝癌病患的病理切片的蛋白質體研究資料,診斷及肝功能的檢驗 資料等,整合成可呈現的數據,提供使用者更深入的資訊系統[Chittaro,2001]。. 一、缺乏蛋白質體實驗數據的管理工具:. 16.

(17) 蛋白質體分析通常會使用影像比對軟體如商業軟體的 Melanie 4 (GeneBio), ImageMaster 2D (Amersham), PDQuest (BioRad), Phoretix 2D (Phoretix Inc.) and Gellab II (Scanalytics) 或開放源碼的 Flicker 分析染色後的二維電泳膠片(需事先透過掃瞄系統將影像轉成圖 形檔),經軟體分析處理後,比對膠片之間的差異,再由膠片中取出這些差異點(待測的 蛋白質)作進一步的質譜分析,質譜儀(MALDI-TOF-MS)分析所產生的 peptide mass fingerprint (PMF)數據,可於蛋白質資料庫進行比對[Matrix Science website]、[ExPASy website],以預測可能的蛋白質。目前的蛋白質體的研究方法,並沒有一個單一的標準, 需有不同的分析應用程式協助,才能完成全部的分析。由於軟體間的不同資料格式,使 得各軟體間無法因資料格式相容得以相互操作(Interoperability),提供研究者能於不同程 式需求中完成資料的管理及未來的存取。目前並沒有商業軟體可供使用者管理蛋白質體 的資料及相關的資料如樣品前處理各項實驗條件[Navarro et al,2003]。如何整合蛋白質 體研究實驗上不同的分析程式數據,並提供簡易的操作介面管理以存取蛋白質體研究資 訊,為目前蛋白質體研究急需透過生物資訊工具解決的一個問題。. 二、肝癌臨床研究與基礎研究缺乏整合的研究資料: 根據衛生署 86 年至 91 年六年的統計顯示如表一,台灣男性肝癌的死亡率約佔所有癌症 病患的平均為 23%(4601 人),女性為 13%(1520 人)分居國內癌症中男女的一、二名[行 政院衛生署 website]。肝癌一向是國內的研究重點[國家基因體計畫 website]、[ 國家衛 生研究院 website],國內在肝炎的研究已有相當好的研究基礎[楊玉齡 and 羅時成, 2002]。但在肝癌的研究上,目前尚未建立結合臨床資料與基礎研究的整合資料庫,相 較於亞洲的新加坡[Liang et al,2002]與南韓[Cho et al,2002]都相繼建立結合蛋白質體與 肝癌的研究資料庫,中共更在國際蛋白質體組織(Human Proteome Organization,HUPO) 下主導人類肝臟蛋白質體計畫(Human Liver Proteome Project,HLPP),並建立肝臟各項. 17.

(18) 蛋白質資料。. 國內有相當良好的肝癌研究環境:肝癌病例及累積的肝炎研究基礎。在良好的基礎繼續 發展肝癌的生醫整合研究,並透過生物資訊整合臨床及蛋白質體的研究資訊。藉由臨床 所提供的診斷觀察及蛋白質體分析可提供分子層次的生物診斷資訊,未來可能發展成為 癌症早期診斷的標識(biomarker) [Petricoin and Liotta,2002]、[Winget etal,2003]。藉由 分子層次的診斷,改善現有的臨床診斷,提昇癌症的早期診斷正確率,作更好的預防及 治療。 表一:民國 86 至 91 年國內肝癌罹患人數統計表,人數括號內數字表示癌症死亡的排名。 性別 年. 男 人數(人). 百分比(%). 女 人數(人). 百分比(%). 合計 人數(人). 百分比(%). 86. 4439(1). 23.84. 1403(2). 13.50. 5842(2). 20.14. 87. 4488(1). 23.90. 1377(2). 13.14. 5865(1). 20.04. 88. 4352(1). 22.74. 1410(2). 13.24. 5762(2). 19.35. 89. 4565(1). 22.42. 1436(2). 12.82. 6001(2). 19.02. 90. 4659(1). 22.38. 1656(2). 14.12. 6415(2). 19.44. 91. 5104(1). 23.18. 1839(2). 14.92. 6943(1). 20.22. 平均. 4601. 23.08. 1520. 13.62. 6136. 19.7. 三、針對個別實驗室客制化設計(Customized design)缺乏彈性,整合困難: 部 分 實 驗 室 已 開 始 結 合 生 物 資 訊 發 展 實 驗 室 資 訊 管 理 系 統 (Laboratory Information Management System),以提昇實驗室的研究效率。目前於文獻所發表的系統,系統的功 能大都分都強調資料讀取的方便性,對於資料的建置過程則是整合實驗室現有軟體的分 析結果[Cho et al,2002]、[Wilke et al,2003]。這樣的客製化系統因配合現有實驗室軟 體而缺乏彈性,在未來如需整合其他系統、提供資料供其他實驗室比對新系統需求時, 勢必大幅調整原有的系統,徒增實驗室的經費支出。缺乏開放的資料整合介面,提供不. 18.

(19) 同研究的系統整合需求。. 四、缺乏生物資訊整合的生物醫學的研究: 在人類基因體計畫的發展過程中,生物資訊已逐漸成為資料整合的角色。對於生醫的研 究與發展具有同樣的重要性。在後基因體時代,蛋白質體是相當重要的研究工具。藉由 生物資訊的協助,快速整合實驗數據的提昇蛋白質體的研究。這樣研究模式已廣泛應用 在人類疾病研究如乳癌、膀胱癌[Kort et al,2003]、[Gromov et al,2002]。在肝癌的研 究上不但已結合蛋白質體及生物資訊的方法探討肝癌的病因[Liang et al,2002]。更進一 步結合蛋白質體的資訊(genotype)和病患的病歷資料(clinical phenotype),利用資料探勘 (data mining)的方法,於肝癌的研究上能有重大的發現[Cho et al,2002]。. 1.4 研究目的. 藉由肝癌細胞的蛋白質體的研究,整合蛋白質資料與肝癌病患,透過生物資訊技術的協 助,建立肝癌病患資料、診斷資料及肝癌的蛋白質體資料 web-based 資訊管理系統,協 助生物學家管理複雜的蛋白質資料與肝癌病患診斷資料。透過瀏覽器可操作及存取相關 資訊。. 一、建立實驗室資訊管理系統: 建立 web-based 的實驗室資訊管理系統,管理蛋白質體實驗的不同軟體的分析結果,並 整合肝癌病患的診斷資料,蛋白質體實驗各項參數資料如藥品配方、材料規格、處理方 法,並將資料儲存至資料庫中,使用者透過瀏覽器與管理系統互動,存取系統上資料, 並可由系統提供的連結功能,讀取公用資訊庫上更詳細的註解資訊。資料納入電子資料 庫管理,對於日後接續其他相關研究或整合其他學術研究資料庫都更具彈性。 19.

(20) 二、提供醫療與生物構面的資料探索: 系統整合醫療診斷及蛋白質體資料,研究者可從肝癌分期、發生部位、生化檢驗的異常 現象等診斷條件,檢視符合這些條件的肝癌蛋白質體資料的特性。亦可從蛋白質的特性 如蛋白質名稱或存取編號檢視符號這些蛋白質條件的病患診斷資料。結合臨床診斷觀察 及蛋白質體資料,資料分析功能協助發現癌症早期診斷的標識。. 三、開發方便的資料管理整合及連結系統: 針對臨床資料及實驗室的現有影像軟體(PD Quest)設計一整合系統,並提供 Comma Separate Value(CSV)檔案格式作為開放式的資料匯入的格式、web-based 資料輸入介面, 使用者藉由圖形介面(Graphic User Interface)的步驟線上完成各項資料輸入。藉由上述二 種資料輸入選擇。相容於更多的蛋白質體實驗室的資料管理需求。. 20.

(21) 第二章 文獻探討. 資訊科技的應用無疑是人類基因體計畫成功的重要因素之一,藉由電腦系統的強大運算 能力,協助序列分析,人類基因體計畫才能提前完成。但生物學家們對基因的運作、基 因產物蛋白質的功能、生物的各項功能以及疾病與基因的關係,仍然未解。藉由蛋白質 體研究探討各項基因功能,蛋白質體實驗所產生的大量數據,更需借重生物資訊對蛋白 質資料處理分析,提供研究者對於生物的各種現象更深的瞭解,結合蛋白質體學 (Proteomics)與生物資訊學(Bioinformatics)探討生物的各項功能已成為後基因體時代生 命研究的重要的模式[Vihinen,2001]。. 在後基因體時代的生命科學研究,各實驗室在高效率技術(High through-put)協助下所產 生的大量數據,因實驗數據快速增加,各項的研究對於生物資訊將更加倚重。這些數據 如何透過生物資訊的協助,與傳統的生物學理論相結合,組織成有系統的知識,清楚的 說明生命的過程[Kanehisa and Bork,2003]。面臨新實驗方法及大量數據的特性,各實 驗室開始自行發展實驗室資訊系統,從內部資料管理、整合網路上的公用資源、資料分 析、從文獻上自動摘錄出相關的資料、及知識管理系統的建立,提供生物學者對生命科 學有更深一層的瞭解,不再是如同生物資訊發展早期只是一個單純的序列管理工具或資 料的提供者[Stein,2003]。發展更靈敏的蛋白質體研究方法與蛋白質體的生物資訊,對 於蛋白質體的發展有同樣的重要。下列就蛋白質體與生物資訊的整合技術應用於醫學加 以說明。. 21.

(22) 2.1 建置蛋白質體資訊系統. 目前已有實驗室將其蛋白質體的研究結果儲存於資料庫中,使用者可透過網頁取得研究 結果,對於相關領域的研究提供了相當方便的資料參考來源。. Celis 等人 (1999)將膀胱癌的病理切片與正常組織相比對的蛋白質體研究結果,透過網 站(http://biobase.dk/cgi-bin/celis)的公布其研究結果,其研究重點為從病理切片中比對出 的蛋白質點,其資訊提供主要為這些蛋白質點的資訊及其他公用資料庫如 Swiss Prot、 Omin、PROSITE 對此蛋白質的註解連結,研究者無法得知蛋白質以外的資訊,如原始的 gel 的影像或病患的相關資料。其網站的目的提供其他研究者可經由網路快速取得資 訊。但系統所提供的查詢的功能如關鍵字或蛋白質名稱查詢都需相當熟悉其研究結果, 否則無法由適當的詞彙而得到正確的查詢,但所提供的影像局部放大檢視提供研究者相 當方便的二維膠片影像檢視。. Hill 等人(2003)開發 UAB Proteomics database 作為蛋白質體研究結果的資料庫,儲存二 維電泳影像及蛋白質訊息,提供實驗室蛋白質體資料管理。使用者可藉由樣品代碼 (sample id)、蛋白質名稱(protein name)、樣品來源( source) (如組織、細胞系)、理論 (theoretical molecular mass)及實際(apparent molecular mass)的分子量及理論(theoretical isoelectric point)及測量(measured isoelectric point)的等電點、蛋白質點編號(gel spot number)、實驗室操作者(investigator)、部門(department)。可由這些資料屬性中的單項或 多項組合查詢所需資料。系統設計藉由前端的 web-interface 介面、後端的關聯性資料庫 及 Java servlet 為動態網頁的開發,存取實驗室內的蛋白質的研究資料及連結至 NCBI 及 Swiss Prot 的註解網頁。 22.

(23) Hill 等人 所開發的系統,提供了相當完整的蛋白質體實驗資訊,從 gel 影像及影像中的 所探討的蛋白質,及蛋白質理論及實際的分子量,理論及測量的等電點,資料的查詢包 含樣品代碼、實驗室操作者、部門資料查詢方式。對於實驗室內部的資料管理及資料分 享提供更方便的操作方式,本系統的目的主要在於改善實驗室的資料的管理及無紙化。. Liang 等 人 (2002) 透 過 HCC-M 細 胞 比 對 的 蛋 白 質 體 研 究 結 果 , 透 過 網 站 (http://proteome.btc.nus.edu.sg/hccm/)的公布其研究結果,其研究重點為 HCC-M 細胞株比 對出的蛋白質點,並提供這些蛋白質點的實驗資訊如理論及實驗的分子量及 Pi 值,其 網站的目的提供其他肝癌研究者可經由網路快速取得資訊。系統所提供的查詢的功能如 蛋白質存取編碼(Access No)、蛋白質名稱查詢,相較於 Celis 的膀胱癌蛋白質體資料庫 因採用標準的命名(蛋白質存取編碼 Access No)較方便的查詢。. Cho 等人(2002)同時發展實驗室內部的蛋白質體資料管理系統與資料分析發現診斷生 物標記(biomarker),協助肝癌的早期診斷。YPRC-PDB 系統: 1. 蛋白質體資料方面:從樣品來源、日期、操作者、一維電泳及二維電泳影像及各 蛋白質點的各項資料(座標、濃度、範圍)。 2. 病患資料:基本資料的年齡、性別,症狀描述、家族病史、各項肝功能、手術前 治療及手術後的癒後觀查。 系統的目的除提供蛋白質體研究的資料管理功能外,因整合醫療診斷資料由資料探勘工 具分析特殊蛋白質的變化與肝癌診斷資料關連。發現肝癌的蛋白質標記協助早期治療。. 23.

(24) 2.2 蛋白質體在醫學上的應用. 蛋白質體學廣泛應用於人類疾病的研究,由分子層次探討疾病特性。對疾病生理及預後 的變化提供系統性的研究,改善疾病的診斷及治療。如癌症的早期診斷,藉由血清的蛋 白質的特殊表現型態(expression pattern)及生物資訊的資料分析,目前已可應用於卵巢、 前列腺、乳癌、胰臟、膀胱癌症的篩檢[Sanchez et al,2004],未來還可發展為大規模人 口篩檢工具。蛋白質體研究來對比對正常、病變、老化細胞間的差異,加速醫療診斷、 治療的發展,新藥的開發。. 一、診斷: 目前大部分的診斷仍藉由人體細胞中的單一蛋白質的偵測及定量分析。這些檢驗技術的 發展,大都從疾病的診斷或復發率與測量蛋白質的變化相互關係的觀察所獲得的經驗。 一般而言這些檢測值的預測性都相當低,無法作為診斷的主要依據,在臨床上通常需輔 助其他程序協助診斷。如癌症中的診斷通常需病理切片輔助。蛋白質體研究中,蛋白質 表現模式(expression pattern)相較於傳統的單一蛋白質檢驗,可提供更多與生物及臨床相 關的有用資訊。如目前已可從胰液、尿液或血清中生物標記(biomarker),正確地篩檢出 癌症與非癌症患者如卵巢癌、膀胱癌。未來還可發展成為特殊疾病的大量篩檢方法,提 昇早期及正確的診斷[Sanchez et al,2004]、[Wasinger and Corthals,2002]。. 二、癒後觀察 癒後的發展,可視為疾病期間的不同時期的診斷,及對疾病的處置治療方式提供驗證上 的觀察。癒後的過程會因不同的治療而不同,對疾病的治療研究是很重要的資訊。傳統 的癒後觀察主要是針對病患的病變組織或器官,而蛋白質體的研究能提供更深一層的分 子層次的資料,病變組織或器官上的蛋白質的各項表現,對癒後的研究有相當的幫助。 24.

(25) 未來如能連結病患的病歷資料,在癒後的研究、治療、個人醫療(individual)發展有很大 的幫助[Sanchez et al,2004]. 三、協助醫療的整體發展 醫療的執行應用大概可分為五項要素:診斷(diagnosis)、癒後發展(prognosis)、治療 (therapy)、預防(prevention)、疾病的預測(prediction of diseases)。在醫療的應用這些要素 彼此相互關連,如正確的診斷才能提供適當的治療,能早期的疾病預測才能擬定預防措 施。. 疾 病 的 發 生 大 概 可 分 為 五 項 原 因 : 基 因 (genetic) 、 傳 染 (infectious) 、 環 境 因 子 (environmental)、細胞凋零(apoptosis)、老化(aging)五項因素[Sanchez et al,2004]。引起 疾病的原因通常包含一個以上的因子(如圖 2-1)。人類基因體計畫雖可協助診斷因基因缺 陷所造成的疾病,但大部分的疾病由環境所造成,無法單由基因檢測得知真正病因,通 常需由基因體學、蛋白質體學及代謝的研究才能真正得知病因。如類澱粉沈著症 (amyloidosis):經基因檢測屬於慢性的肺結核(tuberculosis)的高危險群(predisposition), 加上營養及衛生不佳的落後地區環境,則有可能因 β2-microglobulin 的累積發展成類澱 粉沈著症(amyloidosis)。蛋白質體學的研究對疾病的原因探討能從基因擴充至環境因素 的影響,對疾病能有更正確的瞭解,同時蛋白質體亦可應用於診斷、癒後發展 (prognosis)、治療(therapy)。對於醫療要素與五項疾病成因及相互關係,提供很重要的研 究工具,加速未來醫療的整體發展。. 25.

(26) Genetic Predisposition. Environmental influences. Storage handling and apotosis. Infection. Time. 圖 2-1:疾病的五項原因。疾病的成因大部分都是上述五大因素相互影響所造成[Sanchez et al,2004]。. 2.3 蛋白質體的肝癌研究現況. 生物性標識是指和疾病相關,或造成疾病本身的蛋白質分子。因此,可以用來在正常及 異常細胞(如癌細胞)作蛋白質指紋比對時的比對標的。此標的在臨床上可被用來作為 追蹤、診斷某一疾病的依據。蛋白質體研究因可觀察細胞中蛋白質的動態生理變化,提 供了細胞內重要蛋白質體的相關訊息,這些訊息對於生醫方面可能提供重要的說明。未 來還可能發展成臨床的治療[Banks et al,2000]。. 在後基因体時代,以蛋白質体為基礎的研究方法,在生物、醫藥領域中,是一項強而有. 26.

(27) 力的方法。建立由蛋白質体學(Proteomics)方法產生的數據分析及應用系統,是一項 極重要的工作。此數據分析及應用系統需能符合有效率、準確、容易被交換及擷取、容 易儲存等功能。此肝癌蛋白質体及臨床數據的整合系統,其最終目標是在在臨床上提供 一個準確性極高的早期發現肝癌的生物性標識。此項工作,在世界上其他疾病已有成功 的例子如卵巢癌[Sanchez et al,2004]。. 以蛋白質體分析為中心理念的分析模式,開啟了疾病診斷的新概念。在癌症的治療中, 及早發現是很重要的。關係到病人是否能治癒的最基本條件,未來更能節省醫療資源的 最簡單方法。蛋白質體學的技術,在尋找癌症早期的診斷指標,提供了另一種早期發現 的診斷平台。近來,學界熱衷於尋找肝癌發生初期的生物性標識(biomarkers),以作為診 斷上具敏感性與準確性判斷的依據。並企圖發展有效的治療藥物。. 新加坡學界在肝癌的蛋白質體資料庫的貢獻[Liang et al,2002]。其目標在尋找早期診斷 出肝癌的蛋白標識。然而尚未成功,但已找出 320 個蛋白質,並給予其功能性的分類及 註解,附錄一為其中和肝癌有關的蛋白質點。在比對正常及肝癌細胞的蛋白指紋中,選 擇已在全球流通的細胞株。Chang liver,L-02,WRL-68 細胞株代表正常細胞 [Yu et al, 2000],肝癌細胞則以 Hep G2,HCC-M,FOCUS,Huh-7,SK-Hep 1, BEL-7404 為代 表。近來,針對 HCC-M 細胞株的蛋白質體研究有四篇報導[Seow et al,2000]、[Ou et al, 2001]、[Choong et al,2001]、[Liang et al,2002]。這些報導以二維電泳(2-DE), matrix-assisted laser desorption/ionization time-of-flight mass spectrometry (MALDI-TOF MS)的技術,結合生物資訊,完成 HCC-M 細胞株蛋白体的二維電泳圖譜上的蛋白質點 定性分析,及其功能性的詮釋[Liang et al,2002]。並可由其網站存取這些肝癌的研究成 果。網址 http://proteome.btc.nus.edu.sg/hccm/。. 27.

(28) 韓國 Yonsei Proteome Research Center (YPRC)也在 2002 年發表[Cho et al,2002]以肝癌 病患及正常人的組織切片及細胞的 39 個蛋白質點定性分析,及其功能性的詮釋。並結 合內部資料管理功能,建立實驗室資料管理系統(laboratory information management system,LIMS)解決後基因體時代的生物實驗室所需面對大量實驗資料管理是的問題, 如何管理及分析大量的科學數據及建立資料倉儲(data warehouse)[Helfrich,2002],同時 整合樣本中病患的病歷資料,發展資料採擷技術(data mining),希望能確認肝癌中的蛋 白質與臨床診斷資料的關係。目前資料庫需申請核可後,即可使用其在網路上的資料 庫。網址 http://yprcpdb.proteomix.org/~damduck/)。. 國際蛋白質體組織(Human Proteome Organization.,HUPO)藉由推動人類蛋白質體研究計 劃(HUPO Proteome Project,HPP),從蛋白質的研究中,能瞭解更多的生物功能及現象。 目前進行中有五項計畫: 1. 人類血漿蛋白質體計畫(Human Plasma Proteome Project,HPPP) 2. 人類肝臟蛋白質體計畫(Human Liver Proteome Project,HLPP) 3. 蛋白質體資料標準提議(Proteomics Standards Initiative,PSI) 4. 人類大腦蛋白質體計畫(Human Brain Proteome Project,HBPP) 5. 實驗鼠蛋白質體計畫(Mouse and Rat Proteome Project,MRPP) 其中人類肝臟蛋白質體計畫(HLPP)。目前全世界人口因肝臟所造成的身體不適超過 10%,而這些發病原因目前仍無法有很完整的描述,大部分的肝病仍無法作很有效的診 斷、分期、處置。藉由人體肝臟器官及組織中的蛋白質研究(HLPP),加速生物醫學的研 究和醫療模式的改善。其計畫目標主要為[ HUPO website,2004]: 1. 匯集肝臟中的所有的蛋白質體表現資料:廣泛的分析各健康及病變狀態中的肝臟 中的蛋白質組成。. 28.

(29) 2. 建立肝臟中各蛋白質在細胞中位置圖:細胞中蛋白質體及各蛋白質的位置建立。 3. 肝臟中蛋白質交互作用連結圖( Interactome ) : 全面分析肝臟內的蛋白質之間的相 互作用,建立肝臟內蛋白質交互作用的網路關係。 4. 說明蛋白質修飾功能:對於轉錄後(post-translational)肝臟中的蛋白質體作一系統分 析,對於肝臟蛋白質的功能有更完整的瞭解。 5. 連結肝臟蛋白質體計畫(HLPP)和人類蛋白質體計畫(HPPP)研究:協調二項計畫中 資源、技術、知識庫應用,以期能發現生物標記(Biomarks)。 6. 建 立 肝 臟 知 識 庫 : 整 合 與 人 類 肝 臟 的 蛋 白 質 體 (proteome) 相 關 的 轉 錄 體 (transcriptome)及基因體(genome)的資訊。. 肝臟蛋白質體計畫是中國大陸所主導,其他參與國家為加拿大、法國、日本、韓國、德 國、澳洲、英國及最近才加入的美國。中共在中國科協青年科學家第 80 次論壇,並清 楚的表示肝臟蛋白質體計畫能達成下列更清楚的目標。藉由人類肝臟蛋白質體計畫建立 大規模分析肝臟中蛋白質全圖以及蛋白質間的相互作用網路圖、肝臟細胞內所有蛋白質 組成及其動態變化規律(Modification)。特別是人體健康與疾病的機制。. 建立肝臟轉錄體(translatome)、肝臟蛋白質體(proteome)、血漿蛋白質體的相互關係與整 合。藉由肝臟蛋白質體與轉錄體研究,建立正常與病變肝臟的蛋白質體比對資料,提供 新的肝臟預防、診斷和治療方法。並具體完成: 1. 建立肝臟蛋白質全圖及和蛋白質修飾功能圖 2. 描述蛋白質相互作用網路圖和細胞定位圖 3. 符合國際標準的肝臟標本資料庫、肝臟中所有蛋白質體資料庫、肝臟蛋白質抗體 資料庫。. 29.

(30) 4. 提供肝臟新藥發、肝臟診斷及治療的快速發展。. 2.4 國內研究現況. 從國內的研究機構或政府的研究規劃報告中,肝癌一直是國家生醫研究的重點。最近規 劃能結合蛋白質體、生物資訊研究及建立肝臟研究資料庫[基因體醫學國家型科技計畫 website]。經濟部的科專計畫將台灣提昇為全球肝病研究的重鎮,工研院生醫中心 2003 年 11 月發表「肝組織蛋白體」草圖,並配合生物資訊分析比對等技術,完成人類與小 鼠兩項肝細胞蛋白之搜尋鑑定。此草圖是目前全球最完整、規模最大的肝組織蛋白體資 訊,對肝病、肝組織病變之研究及新藥開發將有很大影響。未來生醫中心準備將這項肝 蛋白體研究成果,透過生物資訊技術建立爲一可快速擷取的「整合型蛋白體資料庫」, 除包含各蛋白資訊外,也包含基因名稱、蛋白質序列、蛋白質三級結構及其基因在人及 小鼠染色體上的位置等。[經濟部技術處 website]。國家衛生研究院目前有基因體的肝癌 研究資庫—肝癌 EST 資料庫[國家衛生研究院 website]。目前這些研究成果,提供肝病 無論在基因體或蛋白質體研究相當好的基礎,如能再結合相關既有的肝病研究基礎,將 可打造臺灣成爲全球肝病研究中心。. 隨著後基因體時代來臨,目前國際上數百個蛋白質體研究計畫在進行[Wasinger and Corthals,2002],亞洲的新加坡及韓國的 Yonsei Proteome Research Center(YPRC)針對肝 癌進行蛋白質體及生物資訊的整合型研究並分別發表 J. of Chromatography B [Liang et al,2002],Proteomics[Cho et al,2002]國際期刊,人類肝臟蛋白質體(HLPP)計畫也開始 進行。國內目前有關肝癌的研究組織,則零星分散各研究及學術單位,未能如上述所列. 30.

(31) 國家能有系統規劃及分工推動其國內的肝癌研究,國內目前的肝癌常設相關研究組織: 1. 台灣癌症臨床研究合作組織(Taiwan Cooperative Oncology Group,簡稱 TCOG): 衛生研究院於 2002 年推動 的「台灣癌症臨床研究合作組織」(Taiwan Cooperative Oncology Group,簡稱 TCOG),結合國內二十二個區域級以上教學醫院,進行同 一癌症治療方法的院際臨床試驗合作模式,快速提昇台灣癌症治療的技術及研究 水準,是台灣醫學界第一個成功合作的典範。提昇國內癌症研究推向國際舞台的 重要里程,肝癌為其中之一的疾病委員會。在擴展的過程中,TCOG 也逐步建立 了統計諮詢及研究計劃審查的機制以及各種作業準則;為確保 TCOG 各研究計劃 原始登陸資料之完整與正確,TCOG 稽核委員會每年定期至各會員醫院進行資料 的視查,並與醫院溝通改進,以達資料品管與教育功能。 2. 國衛院自 1997 年籌辦有關「病毒性肝炎與肝癌研討會」目前已籌辦至第四屆。. 提到台灣對世界醫藥衛生的貢獻,許多人自然會想到肝病研究。然而,就整體水準而言, 不過比起其他醫學研究領域,台灣的確因肝病而受到國際矚目。由於台灣人口中曾經感 染 B 型肝炎病毒的比例遠高於全球其他國家, 所以為數眾多的帶原者遂成為臨床研究 的對象,提供肝病研究學者許多的機會。國內除國家基因體計畫外,有關肝癌的研究則 零星分布於其他學術單位及研究機構,相對於南韓、新加坡、中國大陸的在肝癌研究的 大型整合計畫。尤其面對 HUPO 的 HLPP 國際整合優勢,值得國內思考未來肝癌的研究 策略,繼續保持台灣在肝炎研究的優勢。. 31.

(32) 第三章 研究方法. 本章將從已發表的蛋白質體資料管理系統及內部實驗流程規劃系統功能需求,並採用 web-based 架構,前端為瀏覽器、後端的資料庫及中介層的 web 主機。蛋白質體所產生 各項實驗資料中如何擷取系統所需資料及轉換成系統格式及整合肝癌病患的診斷及生 化檢驗資料。最後藉由系統的查詢功能檢視所有的相關資訊及系統滿意度評估。相關論 述如下:. 3.1 蛋白質體資訊系統需求. 蛋白質體研究步驟依序為:[Chambers et al,2000]、[Westermeier and Naven,2002] 1. 組織或細胞溶解出蛋白質萃取物:自待測樣品中取出蛋白質。 2. 二維電泳實驗:將萃取物中蛋白質混合體分離成個別蛋白質。 3. 二維電泳膠片掃瞄及影像比對:取出興趣點蛋白質。 4. 質譜分析:胰蛋白酶分解蛋白質成胜 蛋白質。 詳細流程圖如圖 3.1 蛋白質體實驗流程圖。. 32. ,由實驗的質譜至公用資料庫比對,判讀.

(33) Extract proteins from cells/tissue 1 2D-gel electrophoresis 2 Image analysis of gel 3 Isolation of spots of interest 4 Trypsin digestion of protein 5 Mass spectrometry of tryptic fragments 6 Identification of proteins 7. 圖 3.1:蛋白質體研究的實驗步驟[Chambers,2000]。. 蛋白質體實驗步驟相當繁瑣、複雜,每一步驟又需經過其他實驗的處理,所產生的數據 包含圖型、表格、文字各種型式。為設計適合的蛋白質體資訊管理系統,從文獻中歸納 蛋白質體資訊管理系統的特點,及蛋白質體實驗室實驗流程(長庚大學中醫系的蛋白質 體實驗的實際流程)。. 一、蛋白質體的資訊系統: 1. UAB(University of Alabama at Birmingham) proteomics database[Hill and Kim, 2003],從實驗室資訊管理(LIMS)角度,提供蛋白質體研究的基本資料管理如二維 電泳膠片影像、質譜分析的資料如分子量等、蛋白質點的儲存,處理,及視覺化 的資料存取方式。UAB 系統查詢要是藉由蛋白質(spot of interest)為中心的關連式 資料設計。提供完整每一膠片上與蛋白質點的對應圖。. 33.

(34) 2. PARIS (The Proteomic Analysis and Resources Indexation System ) [Wang et al,2004] 蛋白質體資訊管理系統,強調系統應依據實驗流程(workflow),除基本資料管理功 能外應加入知識分享及資料交換的功能。 3. YPRC-PDB[Cho et al,2002] 除蛋白質資料管理功能外,加入臨床病患資料,將資 料庫擴增成資料倉儲架構,系統結合資料探勘工具,協助 biomarker 的發現。 4. ProDB[Wilke et al,2003]本系統的設計強調大量的自動化,所有的流程資料收集及 分析均有軟體配合,尤其針對蛋白質體實驗容易產生瓶頸的質譜比對分析,從人 工參數調整改良自動調整,整體實驗效率更能大幅提昇。. 二、內部流程分析: 目前的蛋白質體資料管由影像分析軟體軟體分析後,比對分析結果直接儲存於個人電腦 上,二維電泳膠片上經質譜分析後所得的結果,以電子檔案方式儲存,其他的相當資料 如樣品來源、實驗條件紙本方式記錄,這些資料二維電泳膠片、判讀蛋白質資料、實驗 樣品、實驗條件,缺乏整體管理系統。. 建立蛋白質體資訊管理系統具備下列各功能: 1. 資料管理(LIMS):妥善規劃資料管理為蛋白質體資料管理最基本功能,HUPO 於 2003 七月在 Maryland 所舉辦的 workshop 中針對 LIMS 的講習[HUPO website, 2004],作好資料存儲是未來所有生物資訊發展的基礎。 2. 資料分享(data sharing and):妥善規劃資料管理系統包含資料架構、存儲、呈現、 資訊整合項目及提供不同的資料檢索功能,提供不同需求的資料查詢[Wang et al, 2004]。 3. 資料探索(data exploration) :如何將各原始資料依其關係及結構處理後,以生物知. 34.

(35) 識的觀點呈現結果而不是強調原始資料的呈現,提供生物學家或不同領域的研究 檢視[Wang et al,2004]。 4. 圖形介面:提供使用者最方便的操作環境如圖形介面(Graphic User Interface)設計, 瀏覽器的操作介面不需另外安裝其他程式。完成視覺化的資料檢視的功能。 5. 協同平台:實驗室大都經由分工完成,系統功能應配合實驗室的分工流程規劃, 藉由編碼及使用者登入控管,多人完成資料的輸入。整合其他資料:如基因體的 研究、蛋白質結構、或其他資料,增加系統的實用價值如應用臨床診斷、治療、 新藥開發等。. 3.2 肝臟診斷資料. 在肝癌的治療中早期發現是非常重要的,如在晚期發現通常已失去治療的時機。因此, 在肝癌的研究中,大部分的研究都致力於發現有效診斷指標以便早期治療。 肝臟為人體中新陳代謝最複雜的器官。肝細胞的疾病多少會引起肝臟功能的改變,由此 可作為評估肝病的參考。針對檢查肝病而設計用於診斷、治療預後之判斷的測定法稱為 肝功能檢查(如附錄二)。在臨床的診斷上,醫師通常搭配肝功能檢查協助診斷各種肝病 [Schwartz,1989]、[Zuidema,1991]、[何敏夫,1991]。本研究整合結構的資料如肝功 能的檢驗,病理報告的期別、放射線報告的病變部位,病患基本資料的年齡、血型,這 些結構化的資料,可提供資料查詢時更客觀的判斷。. 經肝癌臨床醫師篩選,選擇肝功能檢查中的七個項目為整合診斷資料項目: 1. GOT ( SGOT 或 AST ):最為大家所熟知的是 GOT 與 GPT,幾乎 90% 以上的. 35.

(36) 肝功能異常,GOT 與 GPT 都會上升。過度勞累、飲酒、服藥過量、病毒性肝炎 等,都可能導致肝臟負荷過 重,造成肝細胞受損,而使 GOT、GPT 上 升。嚴重 的肝病,例如:嚴重慢性活動性肝炎、肝硬化、肝癌 等,GOT 及 GPT 的數值 往往不會很高,大概介於數十到一百多,且經常 GOT 數值大於 GPT。 2. GPT ( SGPT 或 ALT ):臨床上常用 GPT 來評估肝細胞受損程度及肝病的急慢 性分類,更是肝病治療成效的重要指標。在大部份的肝病中,GOT 的數值通常都 會小於 GPT。若慢性肝炎有逐漸演變成肝硬化或肝癌的傾向時,GOT 的數值常 會高過 GPT。 3. 鹼性磷酯酶(ALP):臨床上用以檢測原發性肝癌、病毒性肝炎、肝硬化、膽道阻塞。 4. 乳酸脫氫酶(LDH):惡性腫瘍,特別是轉移性肝癌在臨床上檢驗相當重要指標,尤 其是區別診斷肝病時更具意義。 5. 白蛋白(Albumin):血清白蛋白常用來評估一個人的營養狀態、肝臟合成白蛋白的 功能、及膠質滲透壓的平衡狀態。因為白蛋白合成於肝細胞中,當嚴重肝病、肝 硬化、肝癌發生時,白蛋白的合成出現障礙,血中濃度明顯下降。 6. 總膽紅素(direct bilirubin):直接膽紅素常用來評估肝臟及膽囊方面的疾病。配合下 列的直接膽紅素共同判斷。 7. 直接膽紅素(direct bilirubin):直接膽紅素常用來評估肝臟及膽囊方面的疾病。它上 升的原因往往和肝膽方面的疾病有關,例如肝炎、肝硬化、膽結石、膽道阻塞等。. 3.3 系統分析及設計. 一、肝癌的蛋白質體流程:詳細步驟及藥品請參照附錄三. 36.

(37) 1. 樣品前處理:本步驟目的為從肝癌病患的取出癌細胞感染及未感染的病理切片, 分別萃取出待測的蛋白質(Protein mixture),樣本經打碎後,萃取上層的懸浮液。 2. 蛋白質的分離:從萃取的懸浮液分離出不同的蛋白質,採用目前最普遍的蛋白質 分離方法:二維電泳凝膠(Two-dimensional gel electrophoresis) (實驗步驟及二維電 泳處理方式如附錄三)。二維電泳膠片經高解析度的雷射掃描儀進行影像掃瞄,利 用二維電泳影像軟體進行比對(目前使用 Bio-Rad PDQuest Ver:6.2.1),分析正常 切片與肝癌病變二維電泳膠片影像的差異,再將差異點(spots of interests)部分自膠 片中取出,經質譜分析以進一步瞭解是何種蛋白質。 3. 蛋白質定性分析:自二維電泳膠片取出分離後的蛋白質,經酵素胰蛋白脢(Trypsin) 進行水解,將蛋白質切成不同的片段(peptide),經由質譜儀(MALDI-TOF-MS)所產 生的 peptide mass fingerprint (PMF)數據至公用蛋白質資料庫進行比對[Matrix Science website],對應出這個蛋白質是何種蛋白。 上述實驗步驟 2(如圖 3-2 標示 2)及 3(如圖 3-2 標示 3 及 4)皆需藉由電腦軟體輔助資料 的分析,本系統目的除將上述的分析結果,儲存於資料庫外,同時將步驟 1 的樣本來源 及處理方法、步驟 2 的各項實驗處理條件相關資料如藥品、藥品濃度、處理時間,二維 電泳的膠片尺寸、染色條件、電壓、時間等資料亦記錄資料庫中,提供更完整的蛋白質 體的實驗比對依據,完整的蛋白質體研究資料,除二維電泳膠片影像及膠片中所對應的 蛋白質外,應包含實驗處理條件相關資料,更完整呈現蛋白質體的資料[Taylor et al, 2003]、[HUPO website,2004]。. 二、病患診斷資料: 整合病患基本及診斷資料如基本資料(性別、發病年齡、血型),診斷資料(期別、病變器 官、病變器官部位、病理報告、放射科報告)及重要肝功能檢驗指數如 Glutamic Oxaloacetic. 37.

(38) Transaminase (GOT)、Glutamic Pyruvic Transaminase (GPT)、Alkaline phosphatase (ALP)、 Lactate dehydrogenase (LDH)、 Total Bilirubin (TBIL)、Direct Bilirubin (DBIL),以提供醫 療及生物研究人員作相關的研究分析。 各項步驟詳如圖 3.2 說明。. Isolation of proteins. separation of proteins. prediction of proteins. 3. Patient Pathological Section. 2. 1 Protein Mixture. 4. 圖 3.2:圓型為套用現有商業套裝或公用資料庫的查詢功能協助資料的分析,三角型為 系統所增加的資料項目。Step1 為樣品的製備上傳的資料為病患診斷資料及實驗的設 定,Step2 為二維電泳比對上傳的資料為二維電泳膠片影像及蛋白質體的位置。Step3 為 mass spectrometry 實驗,上傳資料為分子量及經公用資料庫比對的蛋白質。. 3.4 資料模型. 一、蛋白質體資料模型:. 38.

(39) 1. 蛋白質體資料的實體(Entity)包括:樣本、二維電泳膠片、待測蛋白質(SOI)、實驗 條件(藥品、時間、溫度)[Taylor et al,2003],各實體之屬性如下:樣品:樣品種 類、生物來源。 2. 二維電泳膠片:膠片尺寸、染色、影像及實驗條件別。 3. 待測蛋白質(Spot of interest):座標,質譜分析結果有分子量、蛋白質存取編碼、蛋 白質名稱。 4. 實驗條件:藥品、時間、溫度屬性。. 二、肝癌病患的診斷資料實體包含病理切片、病患資料、診斷及生化檢察值,各實體屬 性值如下: 1. 病理切片:編碼(id)、病變器官(organ)、病變部位(Site)、檢查時間(occurance age)。 2. 病患基本資料:編碼(P-id)、性別(gender)、生日(birthdate)、血型(Blood type)。 3. 診斷及肝功能生化檢察值:編碼(P-id)、癌症期別(stage)、GOT、GPT、ALB、LDH、 ALP、TBIL、DBIL、病理報告(P_report)、放射線報告(R_report)。 4. 各資料實體之間的關係如圖 3.3 所示。包含蛋白質體的資料及診斷資料實體。. 39.

(40) Patient Data Pathological Section. 存在. -ID -Organ -Source -Age (Occurence). 1 Ex protocol -Medium -Time -Temperature. -P-ID. 被包含 -Gender. 1. N. -Birthdate -Blood type. 1 存在 1. 存在. Gel -ID -Size -Medium -Voltage -Stain. Spot. 1 包含. 1 Clinical Data. 包含. 1 存在. 被包含. -ID -X-Axis -Y-Axis 差異 -Acc No -P Name -M.W. -PI. N. 圖 3.3:實體關係的資料模型圖. 40. -P-ID -Stage N -GOT -GPT 包含 -LDH -TBIL -DBIL -P_report -R_report.

(41) 第四章 研究結果. 本系統的建立可以協助管理蛋白質體實驗所產生的複雜數據,將分析的結果如:二維電 泳膠片、蛋白質位置、預測蛋白質等,建構至系統的資料庫中,並提供 web-based 介面 存取蛋白質體研究資料。而肝癌臨床資料的存入,如診斷資料中的肝臟病變部位、肝功 能檢驗值、肝癌期別等,尋找具有共同臨床症狀或檢驗值之病患樣品,是否具有共同的 蛋白質點或蛋白質群體(pattern)。亦可從具有相同蛋白質點的樣品來源,找出病患的共 同臨床症狀。臨床及蛋白質體資料多元的檢視方法,將有助於研究者以不同的檢視資料 項目,取得有意義的相關性,進而發現新知識[Wilk,2003],加速國內肝癌研究發展。 後基因體時代因基因功能的探討,結合蛋白質體及生物資訊的跨領域學門,已成為生命 科學研究的重要方式。此研究整合蛋白質體及肝癌的診斷資料,落實後基因體的研究至 實際的應用,為肝癌的醫療提供早期發現的診斷方式。蛋白質體資料管理、整合肝癌病 患的診斷資料及使用者資料查詢,說明如下。. 4.1 系統及建置平台. 蛋白質體研究的資料管理需面臨二大問題,從實驗室的數據管理觀點如何建立一資訊系 統管理這些複雜的蛋白質體數據,另一方面如何利用這些數據的特性,結合資料分析, 發現特殊功能的蛋白質。如結合病患的診斷資訊,發展生物標記(biomarker)的可能,協 助重大疾病的早期診斷、治療及新藥開發。這也是後基因體結合蛋白質體及生物資訊的. 41.

(42) 最終目標。. 系統的架構為標準的 web-based 應用程式。前端為使用者的瀏覽器及中介軟體(middle ware)及後端的資料庫如圖 4-1。本系統使用微軟 2000 server 及內含 IIS5 為作資訊服務 系統,採用微軟 Access 2000 作為資料儲存系統,透過 ODBC 驅動程式與資料庫連結。 採用 active server pages(ASP)為動態的網頁開發語言,ASP 語言是一種廣泛使用於動態 網頁開發的描述性語言(Script language)效能比傳統的 CGI(Command Gateway Interface) 高,對於資料庫的連結及不同瀏覽器的支援都有相當高的相容性[陳長念 陳勤意,2001]。. 系統架構 Web Server. Client browser. HIS DB. DB Server. Predefined CSV file. FTP manager. Patient. Gel Images. Clinical Data Database. Parser. Proteomic data Gel image analysis Mass Spectrometry Peptide mass fingerprint Public Protein profile. ASP. Edit interface Predefined CSV file. ASP. Query management CGI. Internet / Intranet. Browser. 圖 4-1:系統架構圖及所含元件。Client browser 為使用者與系統溝通介面。Web server 處理使用者各項需求。Dbserver 提供資料儲存。HIS(Hospital Information System); CGI(Common Gateway Interface);ASP(Active Server Pages);CSV(Comma Separate Value)。各元件詳細如 4-2 說明。. 42.

(43) 4.2 系統功能說明. 蛋白質體研究過程複雜且需搭配不同軟體配合資料分析如二維電泳的影像分析、質譜分 析的蛋白質研判,加上分析結果儲存於各獨立的軟體中,這些於軟體間缺乏資料的溝通 介面,無法整合這些實驗結果至資料庫管理儲存,對於研究相當的不方便。若能將這些 實驗數據整合至資料庫中,並設計單一介面的資料存取,提供研究者透過統一的介面管 理資料及存取各實驗結果。本系統的目的為協助建立蛋白質體研究實驗室資料管理系統 (Laboratory Information Management Systems, LIMS)。. 整合實驗室現行的二維電泳影像比對套裝軟體(PDQuest Ver: 6.2.1,BioRad)的比對資 料、各項實驗處理條件資料、蛋白質的質譜分析,協助建立蛋白質體研究的資料管理系 統。整合肝癌病患的診斷資料,建立肝癌的蛋白質體及診斷的資料庫。並設計資料查詢 介面存取資料。系統提供蛋白質體研究資料及同步檢視診斷資料,並可連結至外部公用 資料庫(NCBI 及 Swiss Prot)讀取得更詳細的蛋白質註解資訊,在視覺化的資料呈現下, 提供研究者更方便的資料存取環境。. 系統的架構採 web-based 系統設計。包含使用者的工作站瀏覽器(Client)、資料庫主機 (Database server)和網路服務主機(web swerver)如圖 4-1。. 4.2.1 工作站瀏覽器(Client): 為系統與使用者溝通介面主要的功能: 提供使用者身份驗證,目前使用者分為四級群組(guest、user、lab user、administrator)各 級使用者因屬不同群組,系統授與不同權限,說明如 4-3 網站導覽說明。. 43.

(44) 1. 資料上傳畫面:配合網路主機檔案傳輸,將蛋白質體資料、診斷資料上傳至網路 服務主機。 2. 查詢畫面:蛋白質體資料及肝臟病患資料屬性查詢資料。. 4.2.2 網路服務主機(web swerver): 網路服務主機包含四個主要元件檔案傳輸管理(FTP manager)、資料分析器(Parser)、編輯 界面(Editor Interface)和查詢管理(Query Management) 如圖 4-1。各元件功能說明如下: 1. 檔案傳輸管理:處理三種外部資料來源的類型類資料。 I. 醫院資訊系統 (Hospital Information System)的所轉出的病患資料。 II. 蛋白質體分析資料,二維電泳膠片圖形檔、蛋白質點(SOI,Spots of interest)位 置圖的座標。 III. 質譜分析後的蛋白質編號及名稱。(以上各項資料格式詳見附錄四) 這些外部資料透過瀏覽器經檔案傳輸管理介面將資料傳輸至到資料庫主機中等待進一 步處理。二維電泳膠片影像直接儲存至已定義好的目錄中及重新命名。其餘的文字資料 送至解析器處理。 2. 資料解析:資料上傳後,經網路服務主機上的解析器處理,解析肝癌病患的診斷 資料、蛋白質體分析資料、質譜分析後的蛋白質判讀資料。解析後儲存於資料庫 的表格中,提供資料查詢時使用。上傳資料包含以下各項: I. 病患資料:資料包含代碼、性別、生日、病發年齡、血型、診斷碼、期別、 部位、肝功能的檢驗指數 ALB、GOT、GPT、ALP、LDH、TBIL、DBIL、 病 理 報 告 、 放 射 線 報 告 。 本 項 資 料 由 醫 院 的 醫 院 資 訊 系 統 (Hospital Information system HIS)匯出,格式如附錄四的病患資料格式。 II. 二維電泳膠片圖檔:jpeg 或其他瀏覽器所支援的格式如 bmp。. 44.

(45) III. 二維電泳膠片檢測蛋白質點作標位置:檢測點上的座標,本項資料經 PDQuest (Ver: 6.2.1)所提供的 basic export 的匯出功能,操作畫面(如附錄 五),匯出格式如附錄四的蛋白質點資料格式。 IV. 蛋白質質譜分析資料:將比對後的資料匯整成 comma separate value (CSV) 檔,格式如附錄四的蛋白質定性分析預測資料格式。 3. 編輯界面:提供圖形界面 (GUI )提供使用者檢視上傳的資料。並提供未來資料編 輯、新增的畫面。或採用的資料分析系統不同於本實驗室時,資料無法以附錄四 的格式轉入本系統時,由本畫面逐步輸入各項資料。 4. 查詢管理:查詢管理提供蛋白質資訊方面的蛋白質存取號碼、蛋白質名稱、分子 量(molecular weight)範圍、pI 值,病患資料方面的病發年紀、性別、癌症期別、肝 功能的生化檢驗值 ALB、GOT、GPT、LDH、ALP、TBIL、DBIL。的個別查詢或 上述各資料項目的組合查詢。. 4.2.3 資料庫主機: 資料庫設計,提供複雜及不同資料來源的儲存架構,可將大量的生物資料有組織的儲存 起來,避免資料重覆與錯誤。更重要的是,目前大部分的資訊開發工具都是架構在資料 庫上(database-backed)的開發應用程式[Nelson et al,2003]。將實驗資料及診斷資料存入 資料庫,可利用現有的資訊工具開發操作容易(user friendly)、快速查詢介面,操作這些 資料。. 45.

Referanslar

Benzer Belgeler

(1970-74) Devlet Tatbiki Güzel Sanatlar Yüksek Okulu, Grafik Sanatlar bölümünü bitirdi.. Atatürk Kültür Merkezi, Grup

Bu gale rinin

類別 專利名稱 國別 專利號碼 發明人 專利權人 專利核准. 日

(一) 請將個人研發成果所產生之智慧財產權及其應用績效分為 1.專利 2.技術移轉 3.著作授權

第 2 頁/共 2 頁 上述一至三款之獎勵金核定後可支領至退休,第五至九款之獎勵 金則每年評估一次。 第五條 彈性薪資之推薦審查程序如下:

臺北醫學大學今日北醫: 可樂不殺精!萬芳洪傳岳院長獲「搞笑諾貝爾」

山地部落醫療資源缺乏,遂自行召集幾名醫 師、藥師、護理師前往義診。沒想到,投入

 Step 3:選擇上傳類別後,點選[下一步]。..