Secvențierea întregului genom al unui etan Pathan (Pakhtun) din nord-vestul Pakistanului BMC Genomics

Abstract

fundal

Pakistanul acoperă o zonă geografică cheie din istoria omenirii, fiind atât parte a regiunii râului Indus, care a acționat ca una dintre leagănele civilizației, cât și ca o legătură între Eurasia de Vest și Asia de Est. Această regiune este locuită de o serie de grupuri etnice distincte, cel mai mare fiind punjabi, Pathan (Pakhtuns), sindhi și Baloch.

Rezultate

Am analizat primul genom etnic masculin Pathan prin secvențierea acestuia la o acoperire de 29,7 ori folosind platforma Illumina HiSeq2000. Un total de 3,8 milioane de variații ale nucleotidelor unice (SNV) și 0,5 milioane de indeli mici au fost identificate prin compararea cu genomul uman de referință. Dintre SNV-uri, 129.441 au fost noi și 10.315 SNV-uri sinonime au fost găsite în 5.344 de gene. SNV-urile au fost adnotate pentru consecințe asupra sănătății și boli cu risc ridicat, precum și pentru posibile influențe asupra eficacității medicamentului. Am confirmat că genomul Pathan prezentat aici este un reprezentant al acestui grup etnic, comparându-l cu un grup de asiatici centrali din panourile HGDP-CEPH tipizate pentru

650 k SNP-uri. ADNmt (H2) și haplogrupul Y (L1) ale acestui individ erau, de asemenea, tipice regiunii sale geografice de origine. În cele din urmă, reconstituim istoria demografică de către PSMC, care evidențiază o creștere recentă a dimensiunii efective a populației, compatibilă cu amestecul dintre descendenții europeni și asiatici așteptați în această regiune geografică.

Concluzii

Prezentăm o secvență de genom întreg și analize ale unui etan Patan din provincia nord-vestică a Pakistanului. Este o resursă utilă pentru a înțelege variația genetică și migrația umană pe întregul continent asiatic.

fundal

Tehnologia secvențierii se îmbunătățește rapid, cu o reducere drastică a costurilor sale [1]. Aceste progrese rapide ne-au extins foarte mult înțelegerea diversității genetice umane și a istoriei populației [2], permițându-ne să investigăm variante cu consecințe asupra sănătății și deschizând calea către medicina personalizată [3]. Studiile de asociere pe scară largă a genomului (GWAS) au caracterizat funcția a mii de SNV-uri comune, dar există încă milioane de variante rămase neexplorate [4]. Prin urmare, secvențierea întregului genom este necesară pentru un studiu detaliat al variantelor genomice rare. Un număr de consorții internaționale au început secvențierea întregului genom al unor panouri mari, inclusiv Proiectul 1000 Genomi (www.1000genomes.org), Proiectul Genomului Personal (www.personalgenomes.org) și 100 genomuri Malay [5]. Aceste consorții, precum și mai multe proiecte geografic mai restrânse, își propun să înțeleagă aspectele funcționale ale variantelor comune și unice la om. În viitor, ne putem aștepta ca toate grupurile etnice distincte să aibă secvențe genomice.

Pakistanul se află la o intersecție a sub-continentului indian în est, a statelor din Asia Centrală în vest și a Chinei spre nordul său. Are o istorie socio-religioasă-culturală unică, în plus față de o serie de grupuri etnice și lingvistice, cum ar fi punjabi, Pathan (Pakhtuns), sindhi și Baloch (Fișier suplimentar 1: Figura S1) [6]. În timp ce un număr dintre aceste grupuri au fost incluse în panourile genetice de tipare a microsateliților și SNP-urilor [7], doar un individ masculin pakistanez de origine etnică necunoscută a fost secvențiat până acum (Fișier suplimentar 1: Figura S2) [8]. Aici raportăm prima secvență a întregului genom și analiza unui bărbat Pathan (cetățean pakistanez). Variațiile genomice incluzând variații de nucleotide unice (SNV), inserții mici și deleții (indels) și regiuni de variație a numărului de copii (CNVR) au fost identificate prin alinierea secvenței genomului Pathan la genomul uman de referință (hg19). Variantele au fost apoi adnotate și scanate pentru funcții asociate împreună cu SNV-uri care ar putea modula răspunsul la medicament. S-au investigat posibile SNV-uri non-sinonime dăunătoare (nsSNV) pentru potențialul efect asupra farmacocineticii și farmacodinamicii medicamentelor. În plus, au fost utilizate mai multe abordări analitice pentru a evalua influența contribuțiilor ancestrale în genomul Pathan (PTN).

rezultate si discutii

Secvențierea genomului și identificarea variantelor

ADN-ul extras din sânge a fost secvențiat cu citiri de capăt pereche de 90 bp folosind secvențierul Illumina HiSeq2000, producând 1.069.127.687 citiri. Un total de 83,3 Gb de secvențe au fost generate și aliniate la genomul uman de referință (fără Ns, 2.861.343.702 bp), acoperind 98,2% din genomul de referință la o adâncime medie de 28,5 × (Fișier suplimentar 2: Tabel S1).

Am identificat un total de 3.813.440 SNV-uri, dintre care 3.683.999 (96,6%) au fost raportate în baza de date dbSNP [9] și 129.441 au fost noi (Tabelul 1), care au fost comparate în continuare cu numărul de variante noi ale altor genomi individuali din literatura 1: Figura S3) [10-19]. Au existat 1.272.912 SNV homozigoti și 2.540.528 heterozigoți. Un total de 18.547 SNV-uri au fost găsite în regiunile de codificare a secvenței ADN (CDS), 25.481 în regiunile netraduse de 3 ’(UTR) și 4.969 în UTR de 5’. Un total de 10.315 SNV-uri în 5.344 gene au fost non-sinonime (nsSNV-uri).

Au fost observate un total de 504.276 indeli scurți (până la ± 20 baze), dintre care 306.128 au fost găsite în regiunile intergenice, 237 în regiunile CDS și 193.308 în regiunile intron. În plus, s-au găsit 1.503 CNVR, dintre care 713 au fost clasificate ca duplicate și 790 ca șterse, afectând 2.364 gene suprapuse (Fișier suplimentar 3: Tabelul S2). Un total de 65 CNVR nu fuseseră descrise anterior în baza de date a variantelor genomice (DGV; http://projects.tcag.ca/variation/). Figura 1 arată numărul de CNVR câștigate și pierdute în fiecare cromozom. ANNOVAR a fost utilizat pentru analiza detaliată a adnotării CNVR-urilor pentru a identifica genele asociate cu aceste regiuni (Fișier suplimentar 4: Tabel S3).

Copiați regiunile de variație a numărului din genomul Pathan. Copierea numărului de variații ale numărului distribuite în fiecare cromozom.

Clasificarea funcțională și relevanța clinică a variantelor

Toate cele 10.315 nsSNV găsite în genomul Pathan au fost examinate în continuare pentru posibilele lor efecte funcționale folosind metode de predicție de calcul (SIFT și Polifen2), rezultând 43 nsSNV în 43 de gene clasificate ca fiind dăunătoare funcțional (Fișier suplimentar 5: Tabelul S4). În plus, nsSNV-urile au fost adnotate folosind ClinVar pentru relevanța lor clinică și am constatat că 31 de SNV-uri codificatoare sunt asociate cu mai multe boli (Fișier suplimentar 6: Tabel S5). De remarcat în special sunt un SNV (rs1049296, Pro570Ser) în TF gena [20], care afectează susceptibilitatea Alzheimer; Ser217Leu in ELAC2 genă (rs4792311), care este implicată în susceptibilitatea genetică la cancerul de prostată ereditar [21]. Rata cancerului de prostată este scăzută în Pakistan (3,8%) [22], comparativ cu americanii și caucazianul [23]. Trei SNV-uri de codare activate GHRLOS (rs696217, Leu72Met), SERPINE1 (rs6092, Ala15Thr) și PPARG (rs1801282, Pro12Ala) care au toate legături cu obezitatea [24-26]. Aproximativ 22,2% dintre pakistanezi sunt raportați ca fiind obezi, ceea ce este aproape de european (

24%) și populațiile Statelor Unite

De asemenea, am găsit trei SNV patogeni în gene asociate cu părul, pielea și pigmentarea: EDAR (rs3827760, Val370Ala), SLC45A2 (rs16891982, Phe374Leu) și TYR (rs1042602, Ser192Tyr) [30-32]. În plus, am detectat un SNV (rs17822931, Gly180Arg) în ABCC11, care este responsabil pentru ceară umedă care a fost găsită și în genomul pakistanez PK1 [33].

Una dintre variantele (rs1065852, Pro34Ser) din CYP2D6 gena este responsabilă de metabolismul deficitar al debrisoquinei, un medicament blocant adrenergic utilizat pentru tratamentul hipertensiunii [34]. De asemenea, două SNV-uri în TPMT Se știe că (rs1142345, Tyr240Cys și rs1800460, Ala154Thr) au un efect patogen și duc la deficiența tiopurinei metiltransferazei (TPMT) [35,36]. Mai mult, două nsSNV (rs2056899 și rs140980900) de CYP4A22 și GGT5 s-au găsit gene din calea metabolismului acidului arahidonic (fișa suplimentară 7: Tabelul S6). Acidul arahidonic din corpul uman provine de obicei din surse animale dietetice, cum ar fi carne, ouă și lactate. Carnea este o parte importantă a dietei Pathan, de obicei consumată cel puțin o dată pe zi, adesea sub formă de kabab (carne tocată prăjită în ulei) sau curry [37].