Biomarkeri adânci ai îmbătrânirii umane Aplicarea rețelelor neuronale profunde la dezvoltarea biomarkerilor

Evgeny Putin

1 Departamentul Pharma.AI, Insilico Medicine, Inc., Baltimore, MD 21218, SUA

2 Computer Technologies Lab, Universitatea ITMO, St. Petersburg 197101, Rusia

Polina Mamoshina

1 Departamentul Pharma.AI, Insilico Medicine, Inc., Baltimore, MD 21218, SUA

3 Fundația de cercetare a biogerontologiei, Oxford, Marea Britanie

Alexander Aliper

1 Departamentul Pharma.AI, Insilico Medicine, Inc., Baltimore, MD 21218, SUA

Mihail Korzinkin

1 Departamentul Pharma.AI, Insilico Medicine, Inc., Baltimore, MD 21218, SUA

Alexey Moskalev

1 Departamentul Pharma.AI, Insilico Medicine, Inc., Baltimore, MD 21218, SUA

4 Școala de biologie a sistemelor, Universitatea George Mason (GMU), Fairfax, VA 22030, SUA

Alexey Kolosov

5 Invitro Laboratory, Ltd, Moscova 125047, Rusia

Alexander Ostrovskiy

5 Invitro Laboratory, Ltd, Moscova 125047, Rusia

Charles Cantor

6 Departamentul de Inginerie Biomedică, Universitatea din Boston, Boston, MA 02215, SUA

Jan Vijg

7 Departamentul de genetică, Colegiul de medicină Albert Einstein, Bronx, NY 10461, SUA

Alex Zhavoronkov

1 Departamentul Pharma.AI, Insilico Medicine, Inc., Baltimore, MD 21218, SUA

3 Fundația de cercetare a biogerontologiei, Oxford, Marea Britanie

Date asociate

Abstract

INTRODUCERE

Cu toate acestea, majoritatea acestor biomarkeri nu sunt reprezentativi pentru starea de sănătate a întregului organism sau a sistemelor individuale și nu sunt ușor măsurați sau vizați cu intervenții cunoscute. Testul comun de biochimie a sângelui este unul dintre cele mai simple teste utilizate de medici pentru a examina starea de sănătate a pacienților. Deși sunt foarte variabile în natură, unii markeri din biochimia sângelui sunt indicatori sensibili ai diferitelor afecțiuni, cum ar fi inflamația și chiar alcoolismul, și sunt aprobați pentru utilizare clinică [13, 14].

Tehnicile de învățare automată (ML), cum ar fi mașinile vectoriale de suport (SVM), sunt utilizate în mod obișnuit în dezvoltarea biomarkerului [15] și creșterile rapide ale datelor etichetate permit rețelelor neuronale profunde (DNN). Metodele bazate pe arhitecți adânci au depășit abordările clasice nu numai în analiza imaginii, ci și în rezolvarea unei game largi de probleme de genomică, transcriptomică și proteomică [16].

În acest studiu, aplicăm o tehnică de învățare profundă pentru prezicerea vârstei cronologice umane care utilizează mai multe DNN-uri stivuite într-un ansamblu și instruite pe zeci de mii de probe de biochimie a sângelui de la pacienții supuși examinărilor fizice de rutină. Apoi, utilizăm o implementare personalizată a tehnicii de importanță a caracteristicii permutării (PFI) [17] pentru a evalua importanța relativă a fiecărui marker de biochimie a sângelui pentru precizia ansamblului. De asemenea, am analizat performanța și acuratețea a 40 de arhitecturi DNN optimizate folosind o varietate de optimizatori, am identificat cel mai bun DNN și am selectat 21 de DNN care au furnizat cumulativ o precizie mai mare și R2 ca ansamblu decât cel mai bun DNN din ansamblu.

REZULTATE

Pentru a efectua acest studiu, am obținut un set de date de 62.419 înregistrări anonimizate de biochimie a sângelui, în care fiecare înregistrare constă în vârsta, sexul și 46 de markeri standardizați ai sângelui printr-o colaborare cu una dintre cele mai mari rețele de laboratoare din Rusia, Invitro Laboratory, Ltd. Ne-am propus să extragem date dintr-o populație rezonabil de sănătoasă. Deși nu am avut acces la evidența pacienților, am selectat doar teste de sânge din controalele de sănătate de rutină, evitând surse evidente de pacienți nesănătoși, cum ar fi spitalele, și prin analize statistice am omis testele de sânge cu valori anormale.

Conducta de proiect generalizată este descrisă în Figura Figura1. 1. În primul rând, am preprocesat setul de date de testare a sângelui, excluzând markerii cu tendințe mari din intervalele de referință, normalizându-i pentru antrenarea DNN-urilor și eliminând valorile aberante (vezi Metode pentru detalii). Setul de date rezultat a fost împărțit în formare și seturi de testare compuse din 56.177 și respectiv 6242 probe. Apoi, 40 de DNN-uri diferite au fost instruiți pe 56.177 probe de testare a sângelui.

biomarkeri

Seturile de date de biochimie a sângelui de laborator au fost normalizate și curățate de valori anormale și de unii markeri anormali. Pentru predicția biologică a vârstei, 21 de DNN-uri diferite cu parametri diferiți au fost combinate într-un ansamblu bazat pe modelul ElasticNet. Pentru predicția sexuală biologică, au fost instruiți DNN unici.

Deoarece am tratat predicția vârstei umane ca o problemă de regresie, am folosit două valori pentru a estima performanța metodei: coeficientul standard de determinare (R 2) și precizia ε (predicția epsilon) (vezi Metode pentru detalii). Atunci când se utilizează precizia de predicție epsilon, eșantionul este considerat corect recunoscut dacă vârsta prezisă este în intervalul [vârsta adevărată -ε; vârsta adevărată + ε], unde ε controlează nivelul de certitudine în predicție. Deci, dacă ε = 0, atunci este o precizie simplă de clasificare. În acest studiu, am luat în considerare ε = 10. Avantajul cheie al utilizării preciziei de predicție epsilon este că permite analiza cohortei fără intervale de vârstă fixe (de exemplu, 10-20, 20-30).