• Sonuç bulunamadı

Investigation and comparison of the preprocessing algorithms for microarray analysis for robust gene expression calculation and performance analysis of technical replicates

N/A
N/A
Protected

Academic year: 2021

Share "Investigation and comparison of the preprocessing algorithms for microarray analysis for robust gene expression calculation and performance analysis of technical replicates"

Copied!
4
0
0

Yükleniyor.... (view fulltext now)

Tam metin

(1)

MIKRODIZIN ANALIZINDE

GURBUZ GEN IFADESI ELDE

EDEBILMEK MAKSADIYLA

KULLANILAN

ON

i$LEME

ALGORiTMALARININ

KAR$ILA$TIRILMASI

VE

TEKNiK

TEKRARLARIN

BA$ARIMLARININ

ANALIZI

INVESTIGATION

AND

COMPARISON OF THE PREPROCESSING ALGORITHMS FOR

MICROARRAYANALYSIS

FOR ROBUST GENE EXPRESSION CALCULATION AND

PERFORMANCE ANALYSIS OF TECHNICAL REPLICA TES

H.

Gokhan

Ilk"

*,

Ozlem

Ilk2,

Ozlen

Konu 3,

Hilal

Ozdag 4

i1kAengankara.eduAr, oikAmetuedu.t,

konu

jen.bilkent.edutr,

hilalozdagAgmailcom

'Ankara

Universitesi, Muihendislik Fakuiltesi, Elektronik Muihendisligi Boluimui, Be,evler, Ankara

2Orta DoguTeknik

Universitesi, Istatistik

Boluimui,

Ankara

3BilkentUniversitesi,Molekiuler Biyoloji ve GenetikBoluimui,Bilkent, Ankara

4AnkaraUniversitesi, Biyoteknoloji Enstituisui, Be,evler, Ankara

Ozet,e associated within the technicalreplicas ofamicroarray

cDNA ve oligo mikrodizin verilerinin, istatistiksel experiment. Therefore this studyisunique in the sense

analizlerini ger,ekle,tirmeden once arkaplan 9ikarimi, that it provides an extensive investigation and

normalizasyon, ve ozetleme sirasi ile a9iklanabilecek comparisonofpreprocessing algorithmsand proposesa

on-i,lemlerden ge,irilerek standardizasyonu novel method for the detection and identification of

gerekmektedir.

Affymetrix

verilerinin analizi i,in finetechnicalreplicate pair. kullanilmakta olan belli basli on-i,leme algoritmalari

arasinda, RMA, dChip, veMAS5 gelmektedir. Onceki 1. Giri,s:

qali,malar

RMAmetodunuenger,ek,i algoritmalardan Genetik biliminden genombilime ge9i,te ortaya 9ikan biri olarak gosterirken, MAS5 algoritmasi daha fazla ve giderek

gui,lenen

teknolojilerin ba,mnda DNA

hata payi i,eren bir algoritma olarak karakterize mikrodizinteknolojisi gelmektedir. Butitinbir genomun

edilmi,tir. Bu

qali,mada,

RMA, dChip ve MAS5 bagil ifadelenme

profilini

mRNAdtizeyinde9ikaran bu

algoritmalarinin performansi mikrodizin teknik teknolojinin ilk uygulamalari cDNA par9alarinin cam

tekrarlari arasindaki deger farkliliklarmin ROC slaytlarin

uizerine

basilmasi ile ger,ekle,tirilmi,tir [2].

karakterleri goz ontine alinarak kar,ila,tirilmi,tir. Her Mikrodizinler cDNA par9alarinin sentetik ui, algoritmanin da "latin square" deneylerinden [1]

oligonuikleotidler

halinde cam

yuizeylere

direkt olarak

se,ilen teknik tekrarlarin kalitesini benzer ,ekilde

fotolitografik

sentezi ile de

uiretilebilmektedir

[3]. siraladigi gozlenmi,tir. Diger yandan, RMA diger

metodlarlakar,ila,tirildigmdaROCegrisi altindakalan 1.1. Mikrodizin analizi:

alani maksimize ettiginden daha yuiksek performans Mikrodizin uretiminde AffymetrixTM ,irketi

goSsterdigini soSylemek muimkuindur.

Bu makalede (Affymetrix, Inc., Santa Clara, CA, USA) tarafindan

o6nerilen

metod, mikrodizin deneylerindeki teknik

kullanilan

fotolitografik

sentez yontemi ile ,irketin

tekrarlarda yer alabilecek lokal ye global hatalarin

tasarladigi,

bir,ok

organizmanin

btittin

genomunu

tespitindede kullanlabilir. i,eren mikrodizinler genom

ara,tirmalarmda

kullanilmaktadir. Bir

genin

11 ila 20 adet 25 baz ,ifti

Abstract uzunlugunda DNA problari tarafindan temsil edildigi

Preprocessing of microarray data involves the bu mikrodizinlerde

ozguin

olmayan hibridizasyonu

necessary steps of background correction, modellemek

uizere

herbir

e,le,mi,

probun (perfect

normalization and summarization of the raw intensity match) bir uyumsuz probu (mismatch) da mikrodizin

data obtained from cDNA or oligo-arrays before tizerine sentezlenmektedir. Uyumsuz problar25 bazlik

statistical analysis. Several algorithms, namely RMA, dizilerinde e,le,mi, problardan yalnizca 13. bazlarinda

dChip,

and MAS5 exist for the preprocessing of farklilik gosterecek ,ekilde tasarlanirlar. Bu durumda

Affymetrix microarray data. Previous studies have mrnegin

buitiun

insan genomunu temsil eden 47,000 identified RMA as one of most accurate algorithms transkript

i,eren

insan dizisinde(AffymetrixHGU133

while MAS5 was characterized with lower accuracy Plus2)

yakla,ik

toplam 1.5 milyon prob ,e,idi

and sensitivity levels. In this study, performance of bulunmaktadir. Deney sonucunda alinan 1.5 milyon

different preprocessing algorithms have been compared yeni noktasi degi,sik oSn i,sleme algoritmalarinin (RMA,

in terms of ROC characteristics of pairwise intensity dCHIP, MASS) uygulanmasi ile herbir transkript i,cin

differences of microarray replicates. Our findings bir deger verecek ,sekilde arkaplan 9i1karimi

indicated that all three algorithms predicted in similar (background correction), normalizasyon ye oizetleme

order the quality of the technical replicates obtained (summarisation) a,samalarina ugrar. Bioconductor

from a selected set of latin square experiments [1]. On yazilimlari (affybatch) bu

tuir oSn

i,slemleri yapmak i,cin

the other hand, RM;4 exhibited higher performance in gerekli paket programlari i,cermektedir. Ornegin,

terms of accuracy by maximizing the area under the arkaplanayarlamasi i,cinRM\A konvoluisyonveya MAS

receiver operating curve. The proposed method also is 5.0 arkaplan yazilimlari kullanilabilir (R,

useful for detection of global and/or local artifacts wwboodutrr).

(2)

Farkli on-i,leme metodlari farkli hassasiyetlerde

1.2. On i~leme algoritmalari verileri analiz kabiliyetine sahiptirler.

$imdiye

kadar

Oni,leme algoritmalari incelendiginde temel olarakui, yapilan

qali,malar

[7] RMA metodunun olduk,a

algoritma dikkat ,ekmektedir. Bunlar RMA [4], dchip ba,arili oldugunu gostermi,tir. Diger bir

qali,ma

ise

[5] ve MAS5 [6] olarak genelle,tirilebilir. Ayrica turm 30'dan fazla oni,leme algoritmasini ROC

metodlar arkaplan 9ikarimi (background correction), karakteristiklerine dayanarak

kar,ila,ila,tirmri,

ve

normalizasyon (normalisation) ve ozetleme proba-ozel arka alan 9ikarimini kullanan GCRMA

(summarisation) sirasinda a,amalari i,ermektedir. Bu metodunun diger metodlara olan uistuinluiguinui a,amalarmn ne ,ekilde yapildigi ve hangi veriyi temel gostermi,tir [9]. RMA, dChip, ve MAS5 metodlari, aldigi algoritmalar arasindaki temel ancak onemli 'latin-square' diye bilinen verisetinin bir altkuimesinin farkliliklari vermektedir. Ilgili kaynaklarda [4,5,6] kullanildigibir

qali,mada,

ortalamasi

alnmmi

ui,luiveri

algoritmalarin detaylari ve

qali,ma

prensiplerinde gruplari arasindaki farklari

ol,9medeki

ba,arisi

kullanilan kuramsal bilgiler detayli olarak a9isindan 'rank' ya da 'kuiicikten btuyuige siralama'

aqiklanmri,tir.

metodu kullanilarak kar,ila,tirilmi,tir [4]. Soiz edilen

Ooali,ma,

RMA metodunun, birbirinden farkli Ornegin,

RMA

(Robust Microarray Analysis) metodu konsantrasyonlarda eklenmi, (spike-in) prob setlerinin

sadece PM (perfect match)

problarini

kullanir ye bu hemen hepsini ger,ekte fark gostermemesi gereken

problarin

normal

dagilimli

bir hata (arka plan probsetlerinden diger metodlarlarla

kar,ila,tirildigmda

oldugunu varsayar. Bunun yaninda MAS 5.0

algoritmasi ise ,ipi 16 e,it dikdortgen alana ayirarak 1.3. Bu

.ali~ma

ile onerilen

yakla~im

her alandaki en du,suik i,simali problarin (turn problarmin...

hoe asi

k e

-

d

problarin)ttmproblarm

Btittin bir genomun ifade

profilinin diger

bir

deyi,le

%2'si)ortalama

i,ima

degerini mazgala

,

zg,in

molekiuler

imzasinin

gilvenilir

ve saglam

bir ,ekilde

arkaplan degeri olarak kabul eder. Daha sonraher bir

.ikarilabilmesi

igin

deneysel

degi.kenlerden

probdan, mazgallarin merkezlerine olan uzakligi ile

kaynaklanabilecek

hatalarin en aza

indirgenmesi

ters orantili olarak bir

arkaplan sinyali 9ikarilir,

ye bu

hedeflenmektedir. Mikrodizin deneyleri

tasarlanirken

i,lemhem PM

(perfect match)

hem de MM

(mismatch)

deneysel

degi,kenlerin

gulvenilirligi,

teknik tekrarlar

problari

igin

ger9ekle

~tirilir.

yapilmak

suretiyle

saglanmaya

qali,ilir.

Normalizasyon a,amasi farkli mikrodizin ,iplerinden

elde edilenarkaplan duizeltmeleri ger,ekle,tirilmi, olan Bu

alaemada

mikrodizin analizlerinde

gulvenilir

ye verilerin birbirleri ile uyumlu ve kar,ila,tirilabilir saglam gen ifadesi elde etmek

kazere kullanilan

olmalari i,in gereklidir. Burada dikkat edilmesi

algoritmalarin

(RMA, dchip,

M\AS5)

karmitlaytermalar

gereken husus, arka plan guirultuisunden temizlenmi,s yapilmi,sye teknik tekrarlarmn ba,sarimlarini tayin eden

ham verilerin

farkla

,ipler

kullanmasindan

dolayi

ROC

tabanli

bir

yakla,im uygulanmi,tir.

ROC analiz

normalize edilmeleri gerekliligidir.

sonu9lari

geli,tirdigimiz optimizasyon

tabanli

diger bir

yakla,im ile de

dogrulanmi, olup

bu kar,ila,tirmanm

Ozetlemea,amasi ayniprob setine ait prob degerlerinin

detaylari

bu makalenin

kapsami

diimda

tutulmu,tur..

anlamli bir bi,imde tek bir deger verecek ,ekilde

"ozetlenmesini" i,erir. Tablo 1'de muimkuin olabilecek 2. Metod

tium arkaplan 9ikarimi, normalizasyon ve ozetleme Affymetrix mikrodizin analizleri GeneLogicTm Latin yontemleri sunulmu,tur. Tablo

1'den

de

a9ikca

Square verileri uizerinde ger,ekle,tirilmi,tir [1]. Bu

gorulebilecegi uizere bir kismi anlamsiz 420 farkli veritabani i,inde BIOB, BIOC, DAPX, ve CRE

kombinasyonda on i,leme algoritmasi onermek bakteriyel genlerinin farkli bolgelerine baglanacak

muimkuinduir. ,ekilde dizayn edilen 11 adet cRNA fragmaninin

herbirinin farkli konsantrasyonlarda bulundugu tekrar

Tablo1.

On-i,leme

algoritmalarina ait metodlar edilmi, oligo dizi verileri Tablo 2'de sunulmu,tur. Bu

diziler HU95A (Human Genome) GeneChip'leri olup

AYAMA

METOD

toplam

alti adet

chip i,ermektedir.

Her bir dizide

Arkaplan "mas","none" "rma" "rma2" kullanilan ortak

komplex

cRNA akut

myeloid losemi

9ikarimi

huicre

hattindan

edinilmi, oldugundan prob

setlerin 1l'i

hari, diger genler i,in ,ipler arasi farklilik Normalizasyon "constant","contrasts","invariantset"

gostermemesi

beklenmektedir. Bunedenle, Tablo 2'de

"loess","qspline","quantiles", sunulan 11 adet spike-in genlerindeki konsantrasyon "quantiles.robust" farkiari "diJferentially expressed" (anlamli fark) ,cip

uizerinde

bulunan diger 12,615 gen ise "non PM

duizeltme

"mas", "pmonly", "subtractmm" diJferantially expressed" (anlamsiz fark) olarak

(gerekli ise) tanimlanabilir.

Ozetleme "avgdiff ', "liwong", "mas",

"medianpolish","playerout" Bu nedenle "non differentially expressed" genlerin

dogru olarak tanimlanmalari ger,cek pozitif (TP),

"differentially expressed" genlerin hatali olarak

tanimlanmalari

yanli,s

pozitif (FP) olarakbelirlenmi,stir.

(3)

Tablo 2'nin ilk sultununda isimleri yer alan kar,ila,tiirmalaridir. Bu kar,ila,tirmalarda ilk indis mikrodizinler diger suitunlarda yer alan konsantrasyon grubu, ikinci indis ise teknik tekrari ifade etmektedir. bilgilerinden dekolaylikla anla,ilabilecegi gibiikiadet Gen ifadesi farklarindan elde edilen toplam 9 set veri farkli grubun

tiger

adet teknik tekraridir. Bu tizerinde "differentially expressed" ve "non

mikrodizinler i,in RIA, dChip ve MIAS5 on i,leme differentially expressed" sayilari ROC (receiver algoritmalari uygulanmi,, elde edilen gen ifadesi operating curve) egrileri [8] kullanilarak degerleri her bir grubun her bir teknik tekrari i,in kar,ila,tirilmi,tir. Bu kar,ila,tirma sonu9lari Tablo

kar,ila,tirilmi,tir (www.bioconductor.org). Bu sayede 3'desunulmu,tur. toplam 9 adet farkdegerineula,ilmi,tir. Bunlar 1-1,

1-2, 1-3, 2-1, 2-2, 2-3 ,3-1, 3-2 ve 3-3 teknik tekrar

Tablo 2. GeneLogicfirmasindan temin edilen "Latin Square"tasarimii,inspike-inkonsantrasyonlari.Parantezi,inde

her birgruptaki teknik tekrarlarin indisleribelirtilmi,tir.

GeneChip BioB- BioBM BioB- BioC- BioC- BioDn- DapX- DapXMIf_ DapX- CreX-

CreX-array SatpM atpM 3_tpM S_tpM 3 atpM 3atpM SatpM atpM 3atpM SatpM 3_tpM

92561hgu 0.5 37.5 25 75 100 50 1.5 1 3 2 5 95a11 (1) 92561hgu 0.5 37.5 25 75 100 50 1.5 1 3 2 5 9521(2) 92561hgu 0.5 37.5 25 75 100 50 1.5 1 3 2 5 95a31(3) 92557hgu 100 1 0.5 2 25 1.5 5 3 35.7 12.5 50 95a11(1) 92557hgu 100 1 0.5 2 25 1.5 5 3 35.7 12.5 50 95a21(2) 92557hgu 100 1 0.5 2 25 1.5 5 3 35.7 12.5 50 95a31(3) Goreceli 200 37.5 50 37.5 4 33.3 3.3 3 12.5 6.25 10 konsantrasyon

Tablo 3. ROCegrileri altinda kalan"yakla,ik" alandegerlerivegruplararasiteknik tekrarkar,ila,tirmalari

Yontem RMA RMA

(alan)

Dchip

Dchipi(alni)

MAS5 MAS5

(alan)

Tekrar (siralama) (siralama) (siralama)

1-1 5 0.9835 5 0.9687 6 0.9596 1-2 8 0.9732 8 0.9682 8 0.9595 1-3 2 0.9937 2 0.9689 3 0.9596 2-1 6 0.9788 6 0.9685 2 0.9597 2-2 1 0.9969 1 0.9689 1 0.9598 2-3 7 0.9757 7 0.9684 7 0.9596 3-1 4 .9859 3 0.9688 4 0.9596 3-2 9 0.9698 9 0.9679 9 0.9592 3-3 3 0.9859 4 0.9687 5 0.9596

3. Tartilma altinda kalan alanin belirlenen bir

degerden

dui,sik

Tablo 3'de verilen ve ROC egrileri altinda kalan 9ikmasi halinde bu teknik tekrarlardaki

problemlere

alanlar 1.0'a normalize edilerek hesaplanmi,tir. Bu

i,aret

edebilir.

degerler ayni yontem i,in anlamli olup, farkli

yontemler

igin

kar,ila,tirmayapilmasianlamlidegildir.

$ekil

1, 2

ye

3'de

silrasyla

RIM\A,

dChipkrr

ye

AS5

Bununnedeni farkliyontemlerde kullanilan TP(dogru

yRontemleri

ile elde edilen

tur

teknik tekrarlara ait

pozitif) veFP (yanli, pozitif) degerlerinin, gen ifadesi ROC egrileri verilmi,stir. Bu ,sekillerden de

abikca

degerlerinin araligi ile degi,mesidir. Bu durum gen

gokruldug

izere

RMlA

e dChipyontemleri biibirine

ifadesi degerlerinin histogramlarini ,izdirerek ,cok

yakin

sonu,clar vermekle birlikte

MIAS5

rahatlikla gozlemlenebilir. Tablo 3'den elde edilen en algoritmasi diger iki algoritma kadar

ba,saril

sonuclar

oinemli

goizlem

her u,c

yointeminde

en

ba,sarili

ye en

uiretememektedir.

ba,sarisiz

teknik tekrar ,ciftini ayni ,sekilde bulmasidir.

Kullandigimiz

yeni

i,cin bu teknik tekrar 2-2 ,ciftini 4. Sonuv

.iemkei. 3- .i.in. en .~t ka.lim ROC egrilerinin altinda kalan alan kadar oinemli bir

sonucunu ve.es is iknc grbn uarl tki diger parametrede maksimum TP'e kar,silik gelen

tekrarmmi

en iyi

iyi~ ~

rnek olmadigini*.

goSstermektedir.

Bu noktada minimum FP

noktasidir

(operating point). Tablo 4'deveren sistemin optimumen iyi teknik

,cali,ma

sonu,ctan yola

9i1karak

teknik tekrarin degil, teknik tka 22 ~notmm9l~ankaiatkbi

tekrar 9i1ftlerini goSz oSnunde bulundurulmasi gerektigi ede dor.oii.y al pzii eelr

goSrtlmektedir.

Ayrica

onnerdigimiz

bu

yonntem,

kalite

(4)

maksadiyla yazarlar farkli "latin square" tasarimi ile elde edilmi,

spike-in konsantrasyonlari

tizerinde kars1ia,tirmayapmayadevam etmektedirler.

Tablo 4. En iyi tekniktekrarin optimum i,letim noktasi

degerleri.

:a RMA1

dChip

|MAS5

TP 12 615 12,615 12,615

FP 0 4 6

Sonu, olarak bu

makalede,

teknik tekrarlardan en

verimli olanlarin ROC egrileri kullanilarak tespit

ekl1.

RM

y

.ntemi

ile elde edilen t

.n

teknik edilmesine yonelik bir yontem onerilmi, ve en iyi

tekrarlarai(toplam

dokuz adet) ait ROC

egrisi..

teknik tekrar 9ifti incelendiginde konsantrasyon

tekrarlara (toplam dokuz adet) ait

ROCkedr.

degerine

kar~ilik

gelen

gen ifade

degerlerinin

R.M

y6ntemi ile daha dogru bir eki1lde 9ikarildigi

gosterilmi,stir.

, OS333

_8*

3

3|KaynakVa

[1] GeneLogic (2002) Datasetshttp://www.genelogic.com.

[2] De Risi JL, Iyer VR, Brown PO, (1997)

"Exploring the metabolic and genetic control of gene expression on a genomic scale" Science, Vol. 278:

680-686.

40M1

[3] Wodicka L, Dong H, Mittmann M, Ho MH,

Lockhar DJ. (1997) "Genomewide expression monitoring in Saccharomyces cereverisiae", Nat.

0 2 ~~4 a a 10 2Biotechnol,Vol. 15: 1359-1367

ekil 2.

dChip

y6.ntemi

ile elde edilen

t.rn

teknik

[4] Irizarry,R.A.,

Hobbs,B.,

Colin,

F.,

Beazer-tekrarlara (toplam dokuz adet) aitROC egrisi. .Xaksi Barclay,Y.D.,

Antonellis,K.,Scherf,U.

and Speed, FPveYaksi iseTPsayisini gostermektedir. T.P. (2003) "Exploration, normalization and

summariesofhigh density oligonucleotide array probe

level data"Biostatistics, Vol.4,249- 264.

14OW

[5] Li,C. and Wong,W.H. (2001) "Model-based

1|...a6ffi~t""""""""'tZ"""""""4~""'i"""S""""""""""'

X...

analy~-""""*o~~~.~~~~

iwo~ ~

*

analysis of oligonucleotide

arrays.

model validation,

design issues and standard error applications"

GenomeBiol. 2(8), 1-11.

[6]

Affymetrix,

Statistical algorithms reference guide, Technicalreport,(2001)

http:www.af

fymetrix.com/support/tec

hical/manuals.

affx

[7] B. M. Bolstad, R. A. Irizarry, M. Astrand and

T. P. Speed, (2003) "A comparison of normalization

0 t 2 3 4 5 a 7 methods for

high

density oligonucleotide

array data

based on variance and bias" Vol. 19no.2, Pages

185-$ekil

3. MAS5 yontemi ile elde edilen tum teknik 193

tekrarlara (toplam dokuz adet) ait ROC egrisi. X aksi 8 h anfcn O Rcie prtn

FPyeYaksi iseTPsayisini

goistermektedir.Chrceitcuv)

Bu degerlerden

a,cikca goirflebilecegi

uizere

RM\Ahtp/wwaeshtsom

n/tt/oc#iz

yointemi tuim

ger,cekpozitifleri belirlerkenhi,cbir

yanli,s

[9] Irizarry,R.A., Wu, Z., and Jafee H.A. (2006)

pozitifbelirlememi,stir. Bu

yeni

setine bakarak RMA

oSn

"Comparison of Affymetrix GeneChip Expression

i,sleme

yoSnteminin

dChip ye MASS

yoSntemleri

ile Measures" Bioinformatics. Jan 12. [Epub ahead of

kar,sila,stirildigida

konsantrasyon degerlerine

goSre

en print]

dogru gen ifadesi degerlerini sundugunu

soSylemek

Şekil

Tablo 3. ROC egrileri altinda kalan "yakla,ik" alan degerleri ve gruplar arasi teknik tekrar kar,ila,tirmalari Yontem RMA RMA (alan) Dchip Dchipi(alni) MAS 5 MAS 5 (alan)
Tablo 4. En iyi teknik tekrarin optimum i,letim noktasi degerleri.

Referanslar

Benzer Belgeler

Electrospinning is a widely used method to produce nanofibers with unique properties like high surface area to volume ratio and nanoporous structure [5].. These unique

We observed that, in addition to thermal stability enhancement, the fast-dissolving character along with high water solubility of cineole and p-cymene was also achieved for

CD molecules have truncated cone-shaped molecular structure and the CD cavity has relatively hydrophobic nature and due to the unique properties of CD, they form

Araştırmanın birinci problemi “İlkokul İngilizce dersi öğretim programının Avrupa Ortak Başvuru Metni (AOBM) ölçütleri ile ilgili bilgi düzeyleri,

We argue that in the near future, optoelectronic technology can be successfully introduced if: (i) changing technology or applications create a significant bottleneck

These lateral and vertical heterostructures have inhomogeneous magnetic moment configurations due to p−d hybridization; in both sides of the junction, chalcogen atoms have

We have shown that energy dissipation starts from zero for large separations, starts to increase as the sample is approached closer to the tip, reaches a maximum just after the

Consequently, since the model with the dependent variable DP2 gives reasonable results, we decided to carry out the presence and the level of financial