

Genomika proiektua
Ambar bateko moskito baten genomaren analisia

ORTOLOGOAK
Kontig honi dagokiolarik, gene ortologoen bilaketa desberdina izan zen, Anopheles gambiae moskitoaren DNA duelako. Hori dela eta, erabilitako informazio iturria, Ensemble metazoa izan zen, eta honek eskainitako ortologoak, gutiz desberdinak izan ziren gainontzeko kontig-etarako (giza DNA) eskainitakoekin konparatuz. Moskito honentzako lortutako ortologo aukera desberdinen artean, lehenik eta behin Drosophila melanogaster aukeratu genuen, ikerkuntza askotan animalia eredua delako. Bestalde, Aedes Aegypti metazoaren DNA-rekin konparatzea erabaki genuen, zeuden ortologo aukera guztien artean, gene honetarako genearen estaldura handiena agertzen zuena delako.
-
Drosophila Melanogaster: FBtr0082337
Espezie honen kasuan ortologoak bilatzeko orduan hiru ortologo aukera genituen, desberdinak hirurak. Hiru aukeren artean, bigarrena aukeratugenuen, bi exoiduna eta UTR-duna, antzekotasunak begiratuta, honek estaldura balio altuena adierazten zuelako: %43.
Aipatu beharra dago, Blast software-an konparaketa egiteko orduan, baldintza batzuk ezarri behar izan genituela antzekotasun portzentai baxu hori dela eta. Baliabide informatiko honek konparaketa egiteko aukera bakarra suertatu zitzaigun "somewhat similar sequences" baldintza ezarrita lan egitea. Horrela, hurrengoa lortu genuen:
GENE ORTOLOGOA
PROTEINA ORTOLOGOA
Aedes aegypti: AAEL010366-RA
Espezie honen kasuan, Anopheles gambiae-ren aztertzen ari garen genearekiko antzekotasuna zertxobait handiagoa denez, Blast programa informatikoan konparaketa egiteko ezarri behar izan genuen baldintza zertxobait zorrotzagoa izatea posible izan zen: "more dissimilar sequences". Lortutako emaitzak ondorengoak izan ziren:
GENE ORTOLOGOA
PROTEINA ORTOLOGOA


Query 751 AATCAACACTTTACGCTGAGCTACCCCCACCCGTACGCACCGAACATGGTCGAGATCGGC 810
|||||||| | |||| || | || | || ||| |||| || ||| ||||| | |||
Sbjct 880 AATCAACATGTATCGCTCAGTTTTCCACGACCCTACTCACCCAATATGATCGAGGTGGGC 939
Query 811 GGGATACAGATACAGCCG---GCGA-AGAAGCTGCCGGCGGACATACAGAAGTACATCGA 866
|| || || || || || ||| || |||||| |||||| | | ||| ||| ||
Sbjct 940 GGCATGCACAT-CAATCGAAAGCGCCAGCCGCTGCCCAAGGACATTCTGGAGTTCATTGA 998
Query 867 CGAGGCGCCGCACGGCGTGATCTACTTCTCGATGGGTTCGATGCTGAAGGGCCGCAACTT 926
| || ||| || || ||||||||||||||||| || | |||||| || | |
Sbjct 999 GGGTGCCGAGCATGGAGTTATCTACTTCTCGATGGGCTCCAATCTGAAGAGCAAAACACT 1058
Query 927 CCCGGAGGACAAGCGGGCCGCGTTCGT-GA-ACGTGTTCCGGGGGCTGAAGGAGAACGTG 984
||| ||| || || ||| | | || || | | || | |||||| || |||
Sbjct 1059 GCCGTTGGAAAAACGCCAGGCGCTGATCGACACCTTTGCCCAG--CTGAAGCAGCGTGTG 1116
Query 985 ATCTGGAAGTACGAGAACGACAGC-CTGCCGGACAAGCCACCGAACGTGCTGATCAAGGC 1043
| ||||||| |||| || || | ||||| | ||||| | || ||| | ||| ||
Sbjct 1117 CTGTGGAAGTTCGAGGAC-ACGGATCTGCCCGGAAAGCCCGCCAATGTGTTCATCTCGGA 1175
Query 1044 GTGGATGCCGCAGAGCGACATTCTGGCCCATCCGAAGGTGAAGCTGTTCATCACGCACGG 1103
||| | || ||| |||||| ||||||||| || ||| | || || ||||||||
Sbjct 1176 CTGGTTCCCTCAGGACGACATCCTGGCCCATGACAATGTGCTGGCCTTTATTACGCACGG 1235
Query 1104 CGGTCTGCTCGGGACGACCGAGGGCCTGTACCACGGCAAGCCGATGGTTGGCATTCCGAT 1163
|||||||||| | || || ||| | | ||||| |||| || | || |||||||| ||
Sbjct 1236 CGGTCTGCTCAGTACCACGGAGTCCATTTACCATCGCAAACCCTTCGTGGGCATTCCAAT 1295
Query 1164 TTACGGCGATCAGGAGCTCAATCTGGCCCGGGCCGAACAGGCCGGGTACGGCGTGAAGCT 1223
| ||||||||| || || |||| || ||||| ||| || ||||| |||| |
Sbjct 1296 CTTTGGCGATCAGTTCCTGAACATGGCTCGTGCCGAGCAGAATGGCTACGGGGTGACTGT 1355
Query 1224 CGATTACGA 1232
|||||||
Sbjct 1356 TCATTACGA 1364


Query 24 SQGARILGILPSVGRSHYIIGAGLMKALLDAGHEVTIVSPYPMKDAPAGLHRDILLPDLA 83
S G L I + +SHY + L K L AGHEVT+VSP+P + P D+ P++
Sbjct 19 SWGYSYLMISHTASKSHYAVCFALAKGLAAAGHEVTLVSPFPQR-KPIKNIIDVETPNII 77
Query 84 TSHGVSGPDLFQYKSAPNLMVLYLVYSEIGPQASEALLQHPKMVELMQSGERFDAVIVES 143
T GV + + P +++ Y S +G +E+LL+ PK+ EL++ FD VI E+
Sbjct 78 TVMGVYKARILENAKKP-VLLRYPRISLMGLDITESLLKEPKVQELLKQNRTFDGVICET 136
Query 144 FASEVLYGLAEHFGGQLFVFSPFGASMWTNELVGTPYPYSYIPHTFLSYTNEMSFWQRFT 203
F ++ YG AEHFG L S GA+ WT++LVGTP P SY+PH+ L + + M+FW+R
Sbjct 137 FMNDAHYGFAEHFGAPLITLSSLGATGWTSDLVGTPSPPSYVPHSLLRFGDRMNFWERAQ 196
Query 204 NALVGHADKLYYRCVFLPQQEAMYRRFFPNAKLTFQQTLESVRLAFVNQHFTLSYPHPYA 263
N + Y + LP+ EA+YR++FPN K F + + L +N H ++S P PY+
Sbjct 197 NLGFQIYEFAYENLINLPRHEALYRKYFPNNKQDFYRMRKDTSLVLLNNHVSISNPRPYS 256
Query 264 PNMVEIGGIQI--QPAKKLPADIQKYIDEAPHGVIYFSMGSMLKGRNFPEDKRAAFVNVF 321
PNM+E+GG+ + + K LP +I+K+I+EA HGVIYFS+GS L ++ PE+KR A V
Sbjct 257 PNMIEVGGMHVNRKAPKPLPQNIRKFIEEAEHGVIYFSLGSNLNSKDLPENKRKAIVETL 316
Query 322 RGLKENVIWKYENDSLPDKPPNVLIKAWMPQSDILAHPKVKLFITHGGLLGTTEGLYHGK 381
RGLK VIWKYE ++ DKP NVLI W+PQ DILAH KV FITHGGLL T E +YHGK
Sbjct 317 RGLKYRVIWKYEEETFVDKPDNVLISNWLPQDDILAHEKVIAFITHGGLLSTMESIYHGK 376
Query 382 PMVGIPIYGDQELNLARAEQAGYGVKLDYDTLSEETIAAAIRTVLDGPAYGERARLISDR 441
P+VGIP +GDQ +N+ARAEQ GYG+ + Y L+ +AI + P++ ER ++IS +
Sbjct 377 PVVGIPFFGDQFMNMARAEQMGYGITVKYAQLTASLFRSAIERITSDPSFTERVKVISSQ 436
Query 442 YRDQPLGPAKAAVYWVEYVLRHKGAPQLQSPSVRLSFVQYNLLDVYAVMGAIALSVLIGA 501
YRDQ P + AVYWVE+V RHKGA L+S L+F+QY+ LDV A ++ +I
Sbjct 437 YRDQKETPLERAVYWVEHVTRHKGAKYLRSACQDLNFIQYHNLDVLATFFSVIGLTVIFV 496
Query 502 GLMLRALLT 510
L++R L+T
Sbjct 497 FLLVRFLVT 505


Query 384 GCTAATGCAGTCCGGCGAGCGGTTTGACGCCGTCATCGTGGAATCGTTCGCCAGCGAGGT 443
||| ||| | || || || | ||||| | ||| || || |||| || | ||||| ||
Sbjct 54 GCTTATGAATTCAGGAGAACAATTTGATGTCGTTATTGTAGAATGTTTTGTAAGCGACGT 113
Query 444 GCTGTACGGGCTGGCGGAACATTTCGGTGGACAGTTGTTTGTGTTCTCGCCGTTCGGTGC 503
||| || || | || | ||||| || | || |||| || || || || |||||
Sbjct 114 GCTATATGGATTTGCCCAGCATTTTAATGCTCCATTAGTTGTATTTTCTCCATTTGGTGC 173
Query 504 GTCCATGTGGACGAACGAGCTGGTCGGTACGCCGTACCCGTACTCGTACATTCCGCACAC 563
|| | ||| | || || | | || || || || || | |||| | |||||||||||
Sbjct 174 TTCGTTATGGGCCAATGAATTAATAGGAACTCCTTATCCATTCTCGCAAATTCCGCACAC 233
Query 564 CTTCCTGAGCTACAC-GAACGAGATGTCGTTCTGGCAGCGGTTCACGAACGCACTCGTCG 622
|| || || || || || ||| ||||| ||| | | | || | ||| |||| |
Sbjct 234 GTTTCTTAGTTATACAGATCGA-ATGTCATTCGGTGAAAGATTTATTAACACACTTCTAT 292
Query 623 GCCATGCGGACAAGCTGTACTACCGGTGCGTGTTTCTGCCCCAGCAGGAAGCGATGTACC 682
| ||| ||| | | || ||| | | | |||||||| | || |||| ||||||
Sbjct 293 GGAATGTGGATAGTTTTTATTACAGAAACATATTTCTGCCTCGCCAAGAAGAAATGTACA 352
Query 683 GCCGGTTCTTCCCGAACGCGAAGCTCACCTTCCAGCAAACGCTCGAGAGCGTCCGGTTGG 742
| || || || || | || | || | || | | | ||| | ||||
Sbjct 353 AAACATATTTTCCAAATGCAATGCAATCGTTACCTCAGGTTATGAAAAATGTCAGTTTGG 412
Query 743 CGTTCGTGAATCAACACTTTACGCTGAGCTACCCCCACCCGTACGCACCGAACATGGTCG 802
| || ||||||| || |||| |||| | ||| || || ||||| ||||||||| | |
Sbjct 413 CTCTCTTGAATCAGCATTTTAGTTTGAGTTTCCCACATCCATACGCTCCGAACATGATTG 472
Query 803 AGATCGGCGGGATACAGATACAGCCGGCGAAGAAGCTGCCGGCGGACATACAGAAGTACA 862
|||| || || || || || | | ||| || || | ||| | ||| | |
Sbjct 473 AGATTGGTGGTATTCAAATTGATGACCCAAAGCCTCTTCCTGAGGATCTTCAGCATATCT 532
Query 863 TCGACGAGGCGCCGCACGGCGTGATCTACTTCTCGATGGGTTCGATGCTGAAGGGCCGCA 922
| ||| | || ||| ||||| ||||| ||| ||||| || |||||||| || | |
Sbjct 533 TGGACAACTCGAAGCATGGCGTAATCTATTTCAGTATGGGATCAATGCTGAAAGGGTGTA 592
Query 923 ACTTCCCGGAGGACAAGCGGGCCGCGTTCGTGAACGTGTTCCGGGGGCTGAAGGAGAACG 982
|| || || || || || |||||| | | ||| ||| || || | |
Sbjct 593 GATTTCCAGAAGAAAAACGTAATGCGTTCATTTCAGCATTCTCTAAGCTAAACGAAACAG 652
Query 983 TGATCTGGAAGTACGAGAACGACAGCCTGCCGGACAAGCCACCGAACGTGCTGATCAAGG 1042
| | ||||| ||||||||| || |||| | || || ||||| | || | |
Sbjct 653 TTCTTTGGAAATACGAGAACACAAGTTTGCCTAATAAACCGAAAAACGTTTTCATAAGGA 712
Query 1043 CGTGGATGCCGCAGAGCGACATTCTGGCCCATCCGAAGGTGAAGCTGTTCATCACGCACG 1102
||||||||||||||| || |||| || ||||| || || || |||||||| |||||||
Sbjct 713 AGTGGATGCCGCAGAGTGATGTTCTTGCTCATCCTAATGTTAAACTGTTCATAACGCACG 772
Query 1103 GCGGTCTGCTCGGGACGACCGAGGGCCTGTACCACGGCAAGCCGATGGTTGGCATTCCGA 1162
| || || || || | || || ||||||||||| || || ||||| || |||| |
Sbjct 773 GGGGACTTCTGGGCTCCACAGAATCTCTGTACCACGGTAAACCTATGGTCGGGGTTCCCA 832
Query 1163 TTTACGGCGATCAGGAGCTCAATCTGGCCCGGGCCGA 1199
|||| || || ||| | ||| |||| || |||||
Sbjct 833 TTTATGGAGACCAGCGTTTAAATATGGCACGTGCCGA 869


Query 112 IGPQASEALLQHPKMVELMQSGERFDAVIVESFASEVLYGLAEHFGGQLFVFSPFGASMW 171
IGP SE +L HPK+ LM SGE+FD VIVE F S+VLYG A+HF L VFSPFGAS+W
Sbjct 2 IGPSLSEVILTHPKVKTLMNSGEQFDVVIVECFVSDVLYGFAQHFNAPLVVFSPFGASLW 61
Query 172 TNELVGTPYPYSYIPHTFLSYTNEMSFWQRFTNALVGHADKLYYRCVFLPQQEAMYRRFF 231
NEL+GTPYP+S IPHTFLSYT+ MSF +RF N L+ + D YYR +FLP+QE MY+ +F
Sbjct 62 ANELIGTPYPFSQIPHTFLSYTDRMSFGERFINTLLWNVDSFYYRNIFLPRQEEMYKTYF 121
Query 232 PNAKLTFQQTLESVRLAFVNQHFTLSYPHPYAPNMVEIGGIQIQPAKKLPADIQKYIDEA 291
PNA + Q +++V LA +NQHF+LS+PHPYAPNM+EIGGIQI K LP D+Q +D +
Sbjct 122 PNAMQSLPQVMKNVSLALLNQHFSLSFPHPYAPNMIEIGGIQIDDPKPLPEDLQHILDNS 181
Query 292 PHGVIYFSMGSMLKGRNFPEDKRAAFVNVFRGLKENVIWKYENDSLPDKPPNVLIKAWMP 351
HGVIYFSMGSMLKG FPE+KR AF++ F L E V+WKYEN SLP+KP NV I+ WMP
Sbjct 182 KHGVIYFSMGSMLKGCRFPEEKRNAFISAFSKLNETVLWKYENTSLPNKPKNVFIRKWMP 241
Query 352 QSDILAHPKVKLFITHGGLLGTTEGLYHGKPMVGIPIYGDQELNLARAEQAGYGVKLDYD 411
QSD+LAHP VKLFITHGGLLG+TE LYHGKPMVG+PIYGDQ LN+ARAE+AGYG ++Y+
Sbjct 242 QSDVLAHPNVKLFITHGGLLGSTESLYHGKPMVGVPIYGDQRLNMARAEKAGYGTHIEYE 301
Query 412 TLSEETIAAAIRTVLDGPAYGERARLISDRYRDQPLGPAKAAVYWVEYVLRHKGAPQLQS 471
LSEETI+ AIR+VLD P++ A+LIS+RYRD+P+ PA+ AVYW+EYV+RH+GAPQL+S
Sbjct 302 NLSEETISNAIRSVLDDPSFSSNAQLISERYRDKPMTPAQLAVYWIEYVVRHRGAPQLRS 361
Query 472 PSVRLSFVQYNLLDVYAVMGAIALSVLIGAGLMLRALL 509
+ LSF++ NL+DVY+VM + +VL+ + LR ++
Sbjct 362 AILELSFIERNLIDVYSVMMLLVGTVLVSLCVALRKIM 399
Ikusten dugunez, estaldura nahiko eskasa da, eta bai Anopheles gabiae-ren bai Drosophila melanogaster-en kasuan, lerrokaketa lehenengo basetik nahiko urrun ematen da, eta ez du eskualde oso luzea konparatzen. Dena den, lerrokatzen duen eskualde hori nahiko kontserbatua dago, nahiz eta base aldaketak egon bi sekuentzien artean, aldaketa hauek ausazkoak dira, eta ez dute zertan eraginik izan geneak kodetzen duen proteinaren funtzionaltasunean.
Kasu honetan, aurrekoan ez bezala, estaldura handiagoa da, eta 24. aminoazidotik hasten dira antzekotasunak bi espezieen proteinen artean. Lerrokaketan beha daitekeenez, aminoazido nahikotxo daude aldatuta bi proteinen artean, batez ere 264. aminoazidoraino, eta honek esan nahi du, DNA sekuentzian eman diren base aldaketa asko missense izan beharrean, aminoazido aldaketa bultzatu dutela. Honek izan dezakeen zeresana eztabaida arloan landuko dugu.
Anopheles gambiae -ren genearen nukleotido sekuentzia Aedis aegypti espeziearen ortologoarekin konparatzen dugunean, aurreko konparaketan (euliarekin) baino estaldura handiagoa lortzen da, %49, baina identitateak antzeko balioa dauka. Honetan ere, bi sekuentziak lerrokatuta ikustean, zenbait base aldatu egin direla ikus daiteke, baina ondoriorik aterako bagudu, lagungaria izango da bi sekuentziek kodetzen dituzten proteinen sekuentzien arteko lerrokaketa egitea.
Proteina ortologo honen kasuan, aurrekoan baino estaldura kaxkarragoa topa dezakegu, antzekotasun nabariak lehenengo aminoazidotik urrunago hasten direlarik, eta lehenago amaitzen direlarik. Hala ere, antzekotasun portzentaia nahiko hobea da Drosophila melanogaster-en proteina ortologoarekin lortzen dena baino. Kasu honetan, kontutan izan behar dugu e direla baldintza berdinak erabili Blast programarekin mihiztaketa burutzeko, izan ere, honen kasuan, antzekotasun balio hobeak topatzean, gure erabakia lerrokaketarako baldintza zorrotzagoak ezartzea izan zen.
Mihiztaketan ikus dezakegunez, nahiz eta sekuentzia nukleotidikoan base aldaketak topatu, askok e dute aminoazido aldaketa eragin, eta beraz proteina sekuentzien konparaketan lortzen dugun emaitza hobea da, ez dago horrenbesteko aminoazido aldaketa, eta daudenak ausaz eman dira, leku zehatz batean pilatu gabe. Hmendik ateratako ondorioak eztabaida atalean jorratuko ditugu.