Blochează detecția biomarkerului HSIC Lasso fără model pentru date bioinformatice ultra-dimensionale

Héctor Climente-González, Chloé-Agathe Azencott, Samuel Kaski, Makoto Yamada, Block HSIC Lasso: model-free biomarker detection for ultra-high dimensional data, Bioinformatics, Volume 35, Issue 14, July 2019, Pages i427 - i435, https: //doi.org/10.1093/bioinformatics/btz333

Abstract

Găsirea de relații neliniare între biomolecule și un rezultat biologic este costisitoare din punct de vedere calculator și o provocare statistică. Metodele existente au dezavantaje importante, inclusiv printre altele lipsa de parsimonie, non-convexitate și cheltuieli generale de calcul. Aici propunem blocul HSIC Lasso, un selector de caracteristici neliniar care nu prezintă dezavantajele anterioare.

Comparăm blocul HSIC Lasso cu alte tehnici de selecție a caracteristicilor de ultimă generație, atât în date sintetice, cât și în date reale, inclusiv experimente pe trei tipuri comune de date genomice: microarrays de expresie genică, secvențierea ARN cu o singură celulă și studii de asociere la nivel de genom. . În toate cazurile, observăm că caracteristicile selectate de blocul HSIC Lasso păstrează mai multe informații despre biologia subiacentă decât cele selectate prin alte tehnici. Ca o dovadă a conceptului, am aplicat blocul HSIC Lasso la un experiment de secvențiere cu ARN cu o singură celulă pe hipocampus de șoarece. Am descoperit că multe gene legate în trecut de dezvoltarea și funcția creierului sunt implicate în diferențele biologice dintre tipurile de neuroni.

Blocul HSIC Lasso este implementat în pachetul Python 2/3 pyHSICLasso, disponibil pe PyPI. Codul sursă este disponibil pe GitHub (https://github.com/riken-aip/pyHSICLasso).

Date suplimentare sunt disponibile la Bioinformatics online.

1. Introducere

Descoperirea biomarkerilor, scopul multor experimente bioinformatice, vizează identificarea câtorva biomolecule cheie care explică majoritatea fenotipului observat. Fără o ipoteză prealabilă puternică, acești markeri moleculari trebuie identificați din datele generate de tehnologii de mare viteză. Din păcate, găsirea moleculelor relevante este o problemă combinatorie: pentru caracteristicile d, trebuie luate în considerare 2 d opțiuni binare. Deoarece numărul de caracteristici depășește cu mult numărul de eșantioane, descoperirea biomarkerilor este o problemă de înaltă dimensiune. Provocările statistice puse de astfel de spații cu dimensiuni ridicate au fost revizuite cu atenție în altă parte (Clarke și colab., 2008; Johnstone și Titterington, 2009). În general, datorită blestemului dimensionalității, montarea modelelor în multe dimensiuni și pe un număr mic de probe este extrem de dificilă. Mai mult, din moment ce biologia este complexă, un model statistic simplu, cum ar fi o regresie liniară, ar putea să nu poată găsi biomarkeri importanți. Cei care se găsesc în astfel de experimente sunt adesea greu de reprodus, ceea ce sugerează o supra-dotare. Explorarea spațiului soluției și găsirea biomarkerilor adevărați nu sunt doar provocatoare statistic, ci și costisitoare din punct de vedere al calculului.

În termeni de învățare automată, descoperirea biomarkerului poate fi formulată ca o problemă de selecție a caracteristicilor: identificarea celui mai bun subset de caracteristici pentru a separa între categorii sau pentru a prezice un răspuns continuu. În ultimele decenii, au fost propuși mulți algoritmi de selecție a caracteristicilor care se ocupă de seturi de date cu dimensiuni ridicate. Datorită dificultăților ridicate de dimensionalitate ridicată, metodele liniare tind să fie selectorul de caracteristici de alegere în bioinformatică. Un selector de caracteristici liniare utilizat pe scară largă este cel mai mic operator de contracție și selecție, sau Lasso (Tibshirani, 1996). Lasso se potrivește unui model liniar între caracteristicile de intrare și fenotip prin minimizarea sumei pierderii minime pătrate și a unui termen de penalizare de ℓ 1. Echilibrul dintre pierderea minimă pătrată și penalizare asigură faptul că modelul explică combinația liniară de caracteristici, păstrând în același timp numărul de caracteristici din model. Cu toate acestea, în multe cazuri fenomenele biologice nu se comportă liniar. În astfel de cazuri, nu există nicio garanție că Lasso poate capta acele relații neliniare sau un efect de dimensiune adecvat pentru a le reprezenta.

În ultimul deceniu, au fost propuși mai mulți algoritmi de selecție a caracteristicilor neliniare pentru seturi de date cu dimensiuni ridicate. Unul dintre cele mai utilizate, numit Sparse Additive Model, sau SpAM (Ravikumar și colab., 2009), modelează rezultatul ca o combinație liniară rară de funcții neliniare bazate pe nuclee. Cu toate acestea, deoarece SpAM presupune un model aditiv peste caracteristicile selectate, nu poate selecta caracteristici importante dacă fenotipul nu poate fi reprezentat de funcțiile aditive ale caracteristicilor de intrare - de exemplu, dacă există o relație multiplicativă între caracteristici (Yamada și colab., 2014 ).