Transferul de stil cu autoencodere variaționale este o abordare promițătoare a armonizării datelor RNA-Seq

Găsiți acest autor pe Google Scholar
Găsiți acest autor pe PubMed
Căutați acest autor pe acest site
Record ORCID pentru D. Antonets
Pentru corespondență: [email protected]

Abstract

Motivație Datele transcriptomice sunt frecvent utilizate în cercetarea genelor biomarkere ale diferitelor boli și stări biologice. Sarcinile cele mai comune sunt armonizarea datelor și predicția rezultatelor tratamentului. Ambele pot fi abordate prin abordarea transferului de stil. Fie factori tehnici, fie orice detalii biologice despre eșantioanele pe care am dori să le controlăm (sex, stare biologică, tratament etc.) pot fi utilizate ca componente de stil.

Rezultate Soluția de transfer de stil propusă se bazează pe codificatori variaționali condiționali, codificatori Y și descompunerea caracteristicilor contradictorii. Pentru a măsura cantitativ calitatea transferului de stil, s-au folosit clasificatori ai rețelei neuronale care prezic stilul și semantica după antrenamentul privind expresia reală. Comparația cu mai multe abordări existente bazate pe transferul de stil arată că modelul propus are cea mai mare precizie de predicție de stil pentru toate seturile de date considerate, având în același timp o precizie de predicție semantică comparabilă sau cea mai bună.

a lua legatura antonecnovel-soft.com

1. Introducere

Noua eră a științelor moderne ale vieții a început cu dezvoltarea metodelor de secvențiere a acidului nucleic cu randament ridicat - tehnici de secvențiere de nouă generație (NGS). Cantitatea de date genomice și transcriptomice actuale este extraordinară și crește exponențial. Metodele de secvențiere a unei singure celule au permis o descriere și mai detaliată a unui peisaj transcriptomic care a permis descifrarea naturii foarte complexe a subtipurilor celulare, analizarea tiparelor de dezvoltare și a strămoșilor acestora (Saliba și colab., 2014; Stark și colab., 2019).

În prezent, este larg acceptat că profilurile de expresie genică ale celulelor vii au rezultat dintr-un amestec complex de procese biologice diferite și parametri tehnici. În acest moment, au existat mai multe încercări de a modela acest tip de date ca combinații ale unor reprezentări cu dimensiuni reduse corespunzătoare diverselor căi și condiții biologice (Xu și colab., 2019). În această lucrare testăm ipoteza dacă aceste atribute ar putea fi modificate în mod rezonabil și controlabil in silico folosind modelele de învățare profundă.

2 Context

3 metode

3.1 Seturi de date

3.1.1 Atlasul de celule murine (scMCA)

Acest set de date cuprinzând numeroase profiluri de expresie a genei murinei cu o singură celulă a fost produs cu o platformă Microwell-seq de mare randament (Han și colab., 2018), care a permis analiza a peste 400.000 de celule unice din 51 de țesuturi și organe de șoareci extrase de la mai multe animale la condiții fiziologice variate. Datele originale scMCA conțin profiluri de expresie genică pentru peste 800 de tipuri majore de celule murine. Adnotarea detaliată a fost furnizată de autori pentru peste 200.000 de celule unice. O descriere detaliată a datelor poate fi găsită în lucrarea originală (Han și colab., 2018) și online. Acest set de date a fost selectat din următoarele motive majore: (1) conținea cantitatea uriașă de date obținute cu o metodologie consecventă de către același grup de cercetare, făcând astfel, probabil, dispersia tehnică mai puțin profundă; (2) deoarece probele aparțin diferitelor animale, organe/țesuturi și condiții fiziologice distincte s-ar putea construi un model care să descompună aceste surse de variație.

3.1.2 STARmap

Setul de date STARmap a fost folosit pentru reglarea hiperparametrelor și testarea comparativă a modelului nostru față de alte câteva abordări (a se vedea mai jos). Acesta conține valorile de expresie pentru 166 de gene în 3.700 de celule din trei probe biologice separate de șoareci ale cortexului prefrontal medial (Wang și colab., 2018). Setul de date adnotat a fost preluat de la https://github.com/YosefLab/scVI-data/raw/master/mpfc-starmap.loom de la autorii cadrului scVI (Lopez și colab., 2018). Loom este un format de fișier specializat bazat pe HDF5 potrivit pentru seturi de date omics mari, care conține o matrice principală de date și straturi de adnotare suplimentare. Loompy - o bibliotecă Python pentru lucrul cu datele Loom poate fi găsită la: http://loompy.org.

3.1.3 Retină

Setul de date original conține 27.499 celule și 13.166 gene din două loturi (Shekhar și colab., 2016). Acest set de date a fost, de asemenea, utilizat pentru benchmarking. Am folosit adnotarea cluster din 15 tipuri de celule și numărul de expresii genice preprocesate și normalizate furnizate de autorii scVI (Lopez și colab. 2018). Setul de date adnotat poate fi descărcat de pe https://github.com/YosefLab/scVI-data/raw/master/retina.loom.

3.1.4 PBMC

Datele au fost inițial extrase din setul de date SRP073767 de (Zheng și colab. 2017). Este vorba despre datele scARN-seq de la două loturi de PBMC de la un donator sănătos (4.000 și, respectiv, 8.000 de PBMC). Setul de date a fost pregătit așa cum este descris în lucrarea scVI (Lopez și colab., 2018); setul de date adnotat conținea 12.039 celule cu 3.346 gene. Setul de date a fost utilizat pentru analize comparative. Datele privind expresia genei pot fi descărcate de pe https://github.com/YosefLab/scVI-data/raw/master/gene_info.csv și metadatele corespunzătoare - de pe https://github.com/YosefLab/scVI-data/raw /master/pbmc_metadata.pickle.

3.1.5 PBMC tratat cu IFNβ

Pentru validarea biologică am folosit, de asemenea, setul de date care conține controlul și PBMC stimulate de interferon-beta (GSE96583) (Kang și colab., 2018). Datele au fost preluate din exemple scGen (https://github.com/theislab/scgen-reproducibility). Setul de date a fost furnizat de autori (Lotfollahi și colab., 2019a) ca fiind normalizat și transformat în log. Datele au inclus 18.868 celule aparținând a 8 tipuri celulare și 6.998 gene în două condiții. Exemplele pot fi găsite la depozitul lor de proiecte: https://nbviewer.jupyter.org/github/M0hammadL/scGen_notebooks/blob/master/notebooks/scgen_kang.ipynb.