

Genomika proiektua
Ambar bateko moskito baten genomaren analisia

Behia eta txerria aukeratu genituen gene eta proteina ortologoen konparaketarako, izan ere, gizakiari dagozkion 1, 2, 3 eta 4 kontigetako 5 geneak amankomunean zituzten gene ortologoak horiek ziren. Horretarako erabili izan genuen datu basea Ensemble izan zen, eta horren arabera ikusi ahal izan genuen, gene bakoitzak gene ortologo ugari zituela, baina gene guztiak ez daudenez espezie guztietan identifikatuta, eta gizakiaren genoma hobeto ezagutzen denetarikoa denez, komunean bi espezie horiek soilik aurkitu genituen. Gene guztien ortologoen konparaketarako espezie berdinak erabili genituen, azken batean, gure helburua ez zelako kontig indibidualak aztertzea, baizik eta dugun informaziotik era global batean ondorioak ateratzea, eta horretarako beharrezkoa dugu konparaketa oinarri berdinekin egitea. Izatez, hasieran genuen intentzioa gizakia primateekin alderatzea zen, filogenetikoki duten hurbiltasuna dela eta, baina ezinezkoa izan zitzaigun hau egitea aurreko arrazoia dela eta, zenbait genek primateetan ortologo ezaguna duten arren, ez zen denen kasua, beraz beste batzuk topatu genituen.
Bestalde, bi espezie hartu genituen bat hartu beharrean bi hartzeak hurrengo abantaila dakarrelako: bi espezie horietatik filogenetikoki gizakiarengandik zein dagoen hurbilen ikusi ahal izan dugu.

Antzekotasun taulak eskaintzen dizkigun emaitzak alderatuta, ikus dezakegu gizakiaren genearekiko antzekotasun portzentaiek antzeko balioak dituztela behiaren eta txerriaren kasuan. Beharbada, behian soma daiteke gizakiarekiko hurbiltasun filogenetiko zertxobait gehiago, batez ere β-Hemoglobinaren genearen kasuan, zeinetan oso nabaria den txerriaren cDNA-k gizakiaren cDNA-rekiko duen estaldura txikia. Gainontzeko geneei dagokienez, antzeko balioak daude, eta nahi dezenteak direla deritzogu, beraz, emaitza hauen arabera, aukeratutako bi espezieak ebolutiboki ez daude hain urrun gizakiarekiko, edo ez, behintzat, gene hauei dagokienez, nahiko ondo kontserbatu baitira era globalean hitz eginda.

5. kontigari dagokionez, ez dagokio gizakiari, baizik eta Anopheles gambiae espezieari, malariaren gaixotasuna transmititzen duen moskito afrikarrari. Honek gizakiarekin duen urruntasun taxonomikoa dela eta, topatutako genea beste bi espezierekin konparatu genuen. Horregatik, kontig honen azterketatik ateratako ondorioak desberdinak dira.
Kasu honetan, konparaketarako ortologoak aukeratzeko arrazoiak desberdinak izan dira gizakiaren gene ortologoen konparaketarako espezien aukeraketarako arrazoiengatik. Drosophila Melanogaster aukeratu dugu, aspalditik espezie eredua delako ikerkuntza genetikoak burutzeko, bere ezaugarri genomiko nahiz fenotipiko (laborategian aritzeko tamaina aparta) egokiak dituelako ikerketa genetikoak burutzeko. Animalia eredua denez, eta ikerkuntza genetiko asko egin direnez honekin, honen inguruan datu asko dago, eta interesgarria iruditu zitzaigun gure moskito espeziea honekin konparatzea, nahiz eta gure intereseko geneak honekin antzekotasun txikia duela ikusi. Bestalde, Aedes aegypti espeziea aukeratu dugu topatu genituen gene ortogologoen artean, gure genearekin antzekotasun eta estaldura emaitza onenak zituen aukera zelako, beraz, beharbada, zeuden espezie guztietatik zuhaitz filogenetikoan gure espezietik hurbilen dagoena izan zitekeela pentsatu genuen.
Bestalde, ortologoen konparaketan aipatu bezala, euliarekin edo Aedes-ekin konparaketak egiteko Blast tresna bioinformatikoan ezarritako baldintzak desberdinak izan ziren. Aedes aegypti espeziearekin mihiztaketa egiteko baldintza zorrotzagoak ezarri genituen Drosophila melanogaster-ekin burutzeko baino, eta hori erabaki genuen lehenengo ondorioa ateratzeko aukera ikusi genuelako. Izan ere, gure hipotesia hurrengoa izan zen: koparaketak egiteko orduan, espezie batekin zorrotasun handiagoa ezartzeko aukera baldin badugu, honek Anopheles gambiae espeziearekin besteak baino antzekotasun handiagoa duelako izan daiteke, hau da, hurbilago egon daitezke taxonomiaz edo eboluzioaz aritzen bagara. Beraz, gure abiapuntua zera izan zen: Aedes aegypti espeziea taxonomikoki hurbilago dago Anopheles gambiae-tik Drosophila melanogaster baino.
Lortu genituen emaitak hurrengo taulan adierazita daude:

Ikusten dugunez, ortologoen konparaketa honetan bai antzekotasun bai estaldura portzentaiak ez dira oso handiak, batez ere Drosophila melanogaster-en kasuan. Gene ortogolo hauek bilatzeko, “ensemble metazoa” datu baseaz baliatu ginen, eta hainbat aukera zeuden konparaketarako. Dena den, gizakiaren geneen konparaketarako bi espezie aukeratu genituenez, honetarako bi aukeratu genituen baita ere, baina aipatu beharra dago agertzen ziren ortologo guztien artean, batek ere ez zuela agertzen identitate edota estaldura portzentai handiak. Hortik ondorioztatu dugu Anopheles gambiae-k ez dagoela oso hurbil Drosophila Melanogaster eta Aedes aegypti espezieetatik, batez ere, lehenengotik.

Eskualde kontserbatuen analisi eta eztabaidarako, ortologoen proteina sekuentzian oinarrituko gara konparaketa egiteko. Honen arrazoia zera da, aldaketa garrantzitsua proteina sekuentzian islatuko da, izan ere, gerta daiteke mutazio isilak direla eta, base aldaketaren bat gertatu arren aminoazido aldaketarik ez ematea.
Hori dela eta, gure helburua betetzeko, kontuan izan behar dugu eskualde kontserbatuak baldin badira ez dela aldaketa nabarmenik eman beharko proteinaren funtzionaltasuna mantenduko bada.
CONTIG 1
Contig honek Homo sapiens-en β-Hemoglobina kodetzen duen genea dauka, eta lagina malariaren moskito afrikarretik hartu genuenez, gure ondorioa gizakiaren DNA aurkitzean hurrengoa izan da: Anopheles gambiae metazoak gizaki bat ziztatu du, bere DNA txertatuz.
Ikusi da, Contig honek behiarekin daukan antzekotasuna %85 eta txerriarekin daukana %78koa da, beraz, ezberdintasuna ez da hain nabaria.
Txerriaren kasuan, hasierako 27 aminoazido tartean ageri dira aldaketa kopuru handiena eta gainontzeko proteina zatia nahiko kontserbatu egin denez, ondorioztatu daiteke hasierako zati hori dela garrantzi gutxiago duen eskualdea
Behiaren kasuan aldiz, antzekotasun portzentaia hain altua izanda ondo kontserbatu dela esan daiteke. Gainera, aminoazido aldaketak eman diren arren, sekuentzia osoan zehar banatuta daude zoriz.
SNPei dagokionez, ez dira aurkitu, beraz azken batean konparatu dena datu baseko sekuentzia izan da.
CONTIG 2
Contig honek bi gene kodetzen ditu, Homo sapiens-en DDX53 eta DUSP21 geneak dira.
DDX53 genearen kasuan, ortologoekin lerrokatzerakoan hurrengo antzekotasunak ikusi dira: behiarekin %68 eta txerriarekin %71.
Behiaren kasuan konkretuki, 244 aminoazidotik 492 aminoazidoarako sekuentzia nahiko kontserbatzen da.Txerriaren kasuan, 237 aminoazidotik 425 aminorako sekuentzia nahiko kontserbatzen da. Beraz, datu hauekin ondorioztatu daiteke, gene honen eskualde kontserbatuena 244 eta 425 tarte bitartean egongo dela, hau izan daiteke funtzioari dagokionez eremu garrantzitsua.
DUSP21 genearen kasuan, txerriarekin duen antzekotasun portzentaia %70 eta behiarekin duena %68ko dela.
Txerriaren proteina sekuentzia aztertuz, esango genuke 108. aminoazidotik 162. aminoazidora nahiko kontserbatzen dela, nahiz eta aurreko genearekin konparatuta sekuentzian zehar aldatzen diren aminoazido kopurua handiagoa den. Behiaren kasuan, 100-163 aminoazido tartea da kontserbatuena. Ondorioz, esango genuke DUSP21 genearen kasuan, eskualde kontserbakorra 108 aminoazidotik 162 aminoazido tartean dagoen zonaldea izango dela.
Ez dira, SNPrik aurkitu bi geneetan.
CONTIG 3
Contig honek kodetzen duen genea, Homo sapien-en G protein receptor da.
Behiarekin lerrokatzerakoan, aurkitu dugun antzekotasuna portzentaia %66 eta txerriarekin lortutakoa %69koa da. Ezberdintasuna nabarmenagoa izango da, kasu honetan, eskualde kontserbakorrak laburragoak izango dira.
Behiaren kasuan, 117 tik 158 aminoazido tartean ikusi da antzekotasunik nabarmenena. Txerrian aldiz, 108-172 tartea da berdintasun gehiago agertzen duen tartean. Beraz, esan daiteke gene honen eskualde kontserbatua 117 aminoazidotik 158 aminoazido tartean aurkituko da.
Kasu honetan, 7 SNP aurkitu dira eta datu baseko proteina sekuentzia eta gure Contig-eko proteina sekuentzia konparatzerakoan ikusi da, 6 aminoazido aldatzen direla.
CONTIG 4
Contig honetan aurkitu den genea, Homo sapiens-en sex determing region Y (SRY) da. Gene honen aurkikuntzarekin ondorioztatu daiteke, moskito honek gizaki bat ziztatzearekin batera, gizaki hori gizon bat dela, gene hau Y kromosomaren beso laburrean kokatzen baita.
SRY genea ortologoekin lerrokatzean hurrengo antzekotasunak topatu dira: behiarekin %76ko antzekotasuna dauka eta txerriaren kasuan ere %76ko antzekotasuna dauka.
Txerriaren kasuan konkretuki antzekotasun handia ikusten da, 57. aminoazidotik 134. aminoazidora. Behian aldiz, 57-136 tartean dago antzekotasun handiena. Ondorioz, esango genuke SRY genearen eskualde kontserbakorra 57 aminoazidotik 134 aminoazidora kokatuko da.
Kasu honetan, 4 SNP aurkitu diren arren, soilik bi aminoazidoen aldaketa ikusten da, proteinen sekuentzia lerrokatzerakoan.
Aldaketa guztiak ikusita, esan daiteke, 2 SNPek ez dutela aminoazidoen aldaketarik suposatzen, beraz, mutazio isil bezala kontzideratu daitezke. Beste bien artean, aminoazido aldaketa ematen den arren, guk kontsideratutako eskualde kontserbatuaren barruan bigarrena dago soilik, azido glutamiko baten aldaketa lisina batengatik, beraz gertatzen diren aldaketetatik garrantzi funtzionala izan dezakeen bakarra hau dela esan dezakegu.
Jakina da azido glutamikoa aminoazido ez-esentzialen taldearen barruan kokatzen dela, lisina aldiz, aminoazido esentziala da. Gainera, lisina aminoazidoa basikoa den bitartean (karga positiboa), azido glutamikoa azidoa da (karga negatiboa). Hala ere, UniProt data basean begiratuta ez da agertzen aldaketa hau, beraz, ezin da jakin zein eragin izan dezakeen proteinan. Hala ere, badakigu eskualde hori HGM box barruan dagoela, beraz, pentsa daiteke DNAri lotzeko domeinuan gertatzen denez aldaketa, DNAri lotzeko orduan aldaketaren bat egon daitekeela.
CONTIG 5
Honen kasuan begibistaz ikus dezakegu emaitzetan antzekotasun portzentaia nahiko txikia dela bai cDNA sekuentzia bai proteinaren kasuan. Guri interesatzen zaiguna proteinaren konparaketa denez, ikus dezakegu aminoazido nahikotxo aldatu direla baina mutazioak ez dira gune batean pilatu, baizik eta mutazioak sekuentzia osoan zehar banatuta daude. Beharbada, 322-407 sekuentzia tartea da gehien kontserbatu dena, baina honetan ere zenbait aminoazido aldatu dira. Ondoriozta dezakegu tarte honek garrantzi gehiago izango duela proteinaren funtzionaltasunari dagokionez, kontserbazio tasa handia mantentzen ez duen arren. Argi dagoena da sekuentziako gainontzekoa ez dela esangarria izango proteinaren funtziorako, bertan aldaketa ugari eman baitira.
Bestalde, datu horiek Interpro datu base informatikoko datu teorikoetan topatu bezala, familia honetako entzimek 50 aminoazidoko domeinu kontserbatu bat dute karboxilo muturrean, eta proteina sekuentzien ortologo konparaketa begiratzen baldin badugu, pentsa dezakegu kontserbazio maila mantenduko bada, karboxilo muturra azken aminoazidoek sortzen badute, betetzen da baieztapena, ortologoen bi konparaketetan eskualde honen lerrokaketa egiten baita, kontuan izanik aurretik aipatu bezala, bi espezieekin konparaketa egiteko identitate zorrotasun baldintza ezberdinak erabili arren, baldintza esberdinetan lortzen baita eskualde honen konparaketa. Honek pentsatzera garama karboxilo muturrak zeresana izan dezakeela proteinaren hiru dimentsiotako egituran edota funtzionaltasunean, eskualde hori garrantzitsua ematen baitu.


Nahiz eta 6 polimorfismok aminoazido aldaketa suposatzen duten, bat ere ez ez da sartzen guk kontsideratutako eskualde kontserbatuan beraz printzipioz ez du gure proteinaren funtzioan eraginik izango.
TRANSPOSOIAK
Transposoiei dagokienez, printzipioz contig guztietan topatu izan da transposoitzat har daitekeen sekuentziaren bat, baina zenbaitetan, topatutako datu kopurua itzela denez, filtro itxurako bat ezartzea izan da gure erabakia. Izan ere, transposoien inguruan ezagutzen den informazio gehiena, ezin da ziurtzat eman, transposoien sekuentziak ez daudelako kontserbatuta, eta oso aldakorrak dira. Hori dela eta, aniztasun asko dago transposoiak bilatzeko orduan, oso sekuentzia aldakorrak direnez, oso zaila da batzuetan ziurtatzea sekuentzia bat transposoia dela. Guzti hau dela eta, sekuentzia hauen inguruan ematen den informazioa “score” balio batekin ematen da, hau da, ziurtasuna adierazten duen parametro batekin. Guzti honekin jarraituz, gure erabakia izan da 1000 balioa baino handiagoa duten Giri software-ak topatutako sekuentzia errepikakorrak transposoiak kontsideratzea. Ondorioz, hasiera batean kontig bakoitzean zenbait sekuentzia topatu arren, filtro hau aplikatu eta gero, kontig batzuk transposoirik gabe geratu zaizkigu, eta beste batzuen kasuan, transposoi kantitatea murriztu egin da.
Behin transposoi kantitatea ikusita, ondorioak ateratzeko bidea libre daukagu, baina gai honen inguruan hau egitea ez da batere erraza, ez baitago argi oraindik ere DNA sekuentzia batean transposoiak agertzearen eragina zein den. Dena den, daukagun informazioarekin, badakigu transposoien sekuentziak ez direla kontserbagarriak, hau da, hauetan base aldaketak ematea errazagoa dela. Hori kontuan hartuz, esan dezakegu DNA sekuentzia baten halako sekuentzia aldakorrak baditu, probabilitate handiagoa izango duela mutazioak jasateko, batetik transposoi hauek sartu direlako sekuentziaren barne (askotan birusetatik etorritako sekuentzia exogenoak izan daitezke), eta bestetik, behin hauek genoman txertatuta egonik, hauek bikoiztu eta mutatu egin daitezkeelako, eta honek mutazioa edo polimorfismoa sor dezakete DNA ituan.
Dena den, aipatzekoa da, transposoiaren kokapenak garrantzia duela. Batetik, transposoiak geneen arteko guneetan egon daitezke, eta hor egonik gerta daiteke DNA-ren adierazpenean, eta beraz, gene produktuan, eraginik ez izatea (mutazio isila). Bestalde, Anopheles gambiae-ren kontig-aren kasuan ematen den moduan, transposoia genearen barne dago, eta kasu honetan, transposoia mutatuz gero, genean beran ere base aldaketa ekar dezake, batez ere exoian baldin badago, ondoriozko mutazioa sortuz. Dena den, ez da ahaztu behar, horrek ez duela esan nahi aminoazido aldaketa etorriko denik, gerta baitaiteke kodoi baten hirugarren nukleotidoa aldatzea. Gainera, nahiz eta kodoiaren aldaketak aminoazido aldaketa ekarri, gerta daiteke aminoazido ordezkapenak proteinaren sekuentzian aldaketa ekarri arren, proteinaren funtzionaltasunean eraginik ez izatea. Beste alde batetik, transposoia introietan edo gune ez kodetzaileetan egon arren, “splicing” gune batean baldin badago, gerta daiteke RNA polimerasak “splicing” gunea ez ezagutzea eta ondorioz transkritoa aldatzea. Azken honen eraginak bai izan daitezkeela esangarriak, izan ere, transkritoa aldatuz gero, produktua aldatzea da litekeena. Datu hauek ikusita, esango genuke transposoi hauek nukleotido aldaketak jasaten baldin badituzte, aldakortasuna ematen baldin bada organismo desberdinen sekuentzietan, denboraren poderioz espezie berdineko organismoen artean anizkoiztasuna sortuko dela (eboluzioaren oinarria) eta are gehiago espezieen artean. Hau dela eta, transposoi kantitatea eboluzioarekin eta espezie ortologoen konparaketarekin lotu genezake, hurrengoa esanez: transposoiek aldakortasuna baldin badakarte, gero eta transposoi gehiago izanik, orduan eta mutazioak izateko aukera gehiago, distantzia taxonomiko handiagoa.
Distantzia taxonomiko horri dagokionez, azaldutako hipotesi horri jarraiki, 5. contig-aren kasuan, esaterako, transposoi bakarra dago eta gene barnean gainera, baina dirudienez konparaketetan ikusi bezala, ez da mutaziorik eman, hortaz, taxonomikoki ez da urrundu bere espeziekoetatik, eta transposoi bakarra izanik, e du horrenbesteko probabilitaterik izango mutazioak jasateko, beraz, proteina honek ez duenez beste batzuek bezain beste mutatuko, zuhaitz taxonomikoan eta eboluzioan zehar asko aldatzen ez dela esango genuke, eta azken baieztapen hori egiatzat har dezakegu eraikitako taxonomia taulei begiratuz.
SEKUENTZIA PROMOTOREA
Bestalde, promotore sekuentziei dagokienez, oso kontserbatuta daude contig guztietan, beraz, ondoriozta dezakegu oso garrantzitsuak direla, eta euren sekuentzian aldaketarik egonez gero, kalte larriak sor daitezkeela. Esate baterako, promotore sekuentzian mutaziorik gertatuz gero, gerta daiteke transkripzio faktoreren bat ez lotzea, eta ondorioz proteina zehatz bat ezin izango da ez transkribatu, eta ondorioz ezta itzuli ere. Ildo horretatik jarraiki, proteinaren eta bere funtzioaren arabera, organismoaren biziraupena ere mugatua izango da.
Demagun proteina garrantzitsu bat dela eta bizirauteko ezinbesteko funtzioa duela; kasu honetan bi aukera ditugu buruan: batetik, erredundantzia genikoa dela eta, hau da, proteina batek baino gehiagok gauza dezaketenez funtzio berdina, gerta daiteke proteina zehatz baten faltan funtzio horretarako homologoa izango den bat adierazi eta funtsezko funtzio hori betetzea. Aldiz, nahiz eta erredundantzia genikoa egon eta genoma minimotik urrun egon, gerta daiteke baita ere funtzio zehatz baterako proteina funtzional bakarra egotea. Azken kasu horretan, organismoaren heriotza etorriko zatekeen seguruenik, funtzio hori ezinbestekoa izanez gero behintzat, eta mutazio puntuala izan dena, polimorfismoa, ez da SNP izatera helduko inolaz ere ez (%1 maiztasuna), biziraupen mugatukoa delako.
Ostera, mutatutako proteinaren funtzioa ez bada funtsezkoa, edo bizitzarekin konpatiblea bada, nahiz eta proteina homologorik ez egon funtzionaltasun horretarako, organismoak bizirik jarraituko du, nahiz eta ghorrek sortutako gaitzen bat pairatu dezakeen.