Reducerea decalajului dintre rețelele genetice și neuronale de către Miri Trope către știința datelor

Construirea și analizarea rețelelor neuronale pe date genetice

Miri Trope

28 aprilie · 12 min citire

Recent am efectuat lucrări de cercetare asupra secvențelor genetice. Principala întrebare care mi-a ocupat mintea despre aceasta a fost: „care este cea mai simplă rețea neuronală sugerată disponibilă în acest scop, care este cea mai compatibilă cu datele genetice?” După multă revizuire a literaturii, am descoperit că lucrarea cea mai „la pământ”, dar fascinantă, legată de acest subiect, a avut loc în Prof. Laboratorul lui Yoshua Bengio. Lucrarea numită „Rețea dietetică: parametri subțiri pentru genomica grăsimilor” și scopul său principal a fost clasificarea secvențelor genetice a 3.450 de indivizi în 26 de etnii. Acea lucrare m-a inspirat și aici aș vrea să explic elementele de bază ale construirii rețelelor neuronale pentru rezolvarea acestui tip de problemă. Pentru a înțelege acest blog, nu este nevoie de o experiență prealabilă în biologie; Voi încerca să acoper cele mai multe părți necesare pentru a trece direct în secțiunile de calcul.

Ne confruntăm cu vremuri dificile: virusul SARS-CoV-2 ne-a lăsat neajutorați către forța puternică a naturii. Învățând noi instrumente: obținerea de intuiție în ceea ce privește datele genomice și explorarea metodelor de învățare automată care pot generaliza cel mai bine acele date; Sper că putem să ne unim forțele și să facem o schimbare pentru zile mai bune sau cel puțin să folosim inteligența incredibilă a rețelelor neuronale pentru a face ceva în afară de dezvoltarea aplicațiilor de divertisment, dar salvarea vieții și chiar a planetei noastre.

De ce găsesc genetică atrăgătoare?

Genetica dvs. dezvăluie nu doar informațiile biologice, ci și istoria genetică a strămoșilor voștri, reprezentând părțile dominante care au supraviețuit de-a lungul anilor (consultați „reconstrucția secvenței ancestrale”).

Cu alte cuvinte, este codificarea evoluției biologice a familiei dvs. și chiar mai mult, conform Teorii evoluției lui Darwin, întreaga colecție de creaturi organice (plante, animale etc.) împărtășesc aceleași principii genetice.

Permiteți-mi să vă prezint alte tipuri de date, cum ar fi imagini și propoziții, pentru a înțelege unicitatea datelor genetice. Pe de o parte, imaginile sunt date bidimensionale (sau tridimensionale pentru volume) cu relații de vecinătate. Propozițiile sunt vectori unidimensionali de până la aproximativ o mie de valori cu natura ierarhică a propozițiilor instruite printr-o manieră nesupravegheată.

Pe de altă parte, o secvență genetică este un vector unidimensional (o secvență) de cel puțin sute de mii de valori, fără relații bine definite între vecini și departe de a avea un set de modele pre-antrenate.

Astfel, un filtru de netezire australian G, care este foarte popular în procesarea imaginilor, nu este relevant aici, precum și toată gama de modele pre-antrenate în viziune (I mageNet, V GG, R esNet () și procesarea limbajului natural (W ord2Vec, G love, B ERT ...) sunt scoase din joc.

De ce este o provocare?

Gândiți-vă la o bază de date formată din mii de probe genetice. Trebuie să găsiți o metodă care să generalizeze bine (precizie peste 90%) cu date de intrare de zeci de milioane de combinații. O rețea neuronală poate fi potrivită, deoarece folosește puterea unităților conectate complet într-un mod care lipsește în alți algoritmi „clasici”, cum ar fi PCA, SVM și arborii de decizie care nu gestionează datele separat. Cu toate acestea, construirea celei mai simple arhitecturi de rețea necesită mai mult de zeci de milioane de parametri liberi în greutățile primului strat. Reducerea dimensiunii (pentru a evita o depășire a parametrilor liberi) este o modalitate de a face față acestei probleme; vom discuta mai târziu în acest blog.

Pentru a clarifica lucrurile și a nu pune dificultăți în scopul principal al acestui forum, vă prezint aici doar o imagine de nivel înalt a părților biologice necesare în acest blog. Inutil să spun că sunteți mai mult decât binevenit să explorați oricare dintre aceste subiecte biologice în continuare.

Ce este o secvență genetică?

O moleculă de ADN este o secvență de patru tipuri de baze reprezentate de literele lui A, C, G, T. Părți specifice ale secvenței (chiar dacă sunt localizate la distanță) sunt corelate cu un fenotip. De exemplu, un studiu recent: „Un focar de pneumonie asociat cu un nou coronavirus de origine probabilă a liliecilor” indică faptul că gena ACE2 ar putea fi receptorul gazdă (fenotipul) virusului SARS-CoV-2. Acest exemplu și multe altele arată în mod remarcabil informații valoroase (detectarea infractorilor, potrivirea tulpinilor de canabis, nutriție și medicamente personalizate) care pot fi realizate numai pe baza ADN-ului dvs.

Ce sunt genotipurile SNP?

În zilele noastre, suntem mai aproape ca oricând de realizarea unor secvențe genetice umane aproape complete. Cu toate acestea, suntem încă departe de a acoperi întregul său. Polimorfisme cu nucleotide unice SNP-urile sunt locații specifice genotipurilor în secvența genomică, reprezentate în general ca RS [număr]. Diferite populații au invarianți de secvență diferite, dar probabil să fie cam la fel în cadrul familiilor (prin urmare, asiaticii arată diferit de europeni). Analiza secvențelor SNP va fi un punct cheie în restul acestui blog.

În această secțiune, descriu datele și cei doi arhitecți principali ai rețelei (și o altă rețea cu parametri îmbunătățiți pentru a depăși unele dintre problemele majore în învățarea automată), precum și câteva sfaturi tehnice (

În comparație cu alte tipuri de date, seturile de date medicale sunt dificil de găsit, în principal din cauza restricțiilor de confidențialitate. În lumina acestui fapt, proiectul genomului 1000 a realizat o descoperire remarcabilă prin publicarea unui set de date disponibil public de 3.450 de probe de ADN uman, 315K SNP fiecare din cele 26 de populații din întreaga lume. Figura următoare prezintă o histogramă derivată din datele celor 1000 de genomi, care prezintă frecvența indivizilor pe populație (etnie); Numărul mediu de probe din fiecare populație este de aproximativ 133 de probe genetice.

După cum sa menționat mai sus, este preferată reducerea numărului de parametri liberi într-un model (în cazul nostru, avem de-a face cu aproximativ 30 de milioane de parametri). Metoda propusă pentru realizarea acestui lucru utilizează o altă rețea auxiliară deasupra rețelei discriminante care introduce o histogramă pe clasă (o matrice de încorporare calculată într-un mod nesupravegheat). Ieșirea acestei rețele inițializează greutățile primului strat al rețelei discriminatorii. Matricea de încorporare este histograma genotipurilor normalizate pe populație, iar dimensiunea sa este SNPs X [4x26], unde patru reprezintă patru combinații de genotipuri și 26 pentru numărul de clase (populații). Implementarea unei astfel de matrice de încorporare este descrisă mai jos.

Oricum, aceasta este soluția lor; soluția mea este prin reducerea numărului stratului de unități ascunse (vezi secțiunea arhitectură). Am numit această nouă arhitectură modelul îmbunătățit și unul dintre beneficiile sale este de a depăși supraadaptarea, așa cum am discutat mai târziu în secțiunea de rezultate.

Două rețele principale sunt comparate în acest blog. Ambele rețele sunt formate din două straturi ascunse complet conectate, urmate de un strat softmax, dar al doilea (a se vedea figura următoare) include o rețea uxiliară care prezice parametrii liberi ai rețelei discriminatorii. Rețeaua auxiliară ia ca intrare matricea de îmbinare și returnează greutățile rețelei discriminative mai întâi mai târziu (Fig. 1).