LAceModule Identificarea modulelor de ARN endogen concurente prin integrarea corelației dinamice

Date asociate

Datele ARN-seq, datele microRNA-seq, datele CNV și datele de metilare a genelor provin din Atlasul genomului cancerului (TCGA). Codurile sursă ale LAceModule sunt disponibile la https://github.com/GaoLabXDU/LAceModule.

Abstract

Introducere

Spre deosebire de corelațiile convenționale (de exemplu, PCC), corelația dinamică se concentrează pe schimbarea corelației a două variabile în urma modificărilor unei a treia variabile (Gunderson și Ho, 2014; Yu, 2018). De exemplu, LA este definit ca media derivatei corelației dintre două obiecte în raport cu o a treia condiție (Li, 2002). LA a fost utilizat pentru a identifica genele candidate la boală (Li și colab., 2007) și genele asociate vârstei umane (Yang și colab., 2018), precum și pentru a descoperi speciile cheie microbiene și factorii de mediu ai comunității microbiene (Ai și colab. ., 2019).

LA este o măsură adecvată pentru evaluarea sensibilității de corelație a ARNc la microARN. În acest studiu, am analizat în primul rând eficacitatea LA în detectarea perechilor de ARNc. Ulterior, am propus un cadru pentru investigarea modulelor ceRNA bazate pe LA (LAceModule) prin integrarea PCC convențională și a corelației dinamice LA cu factor de matrice non-negativă multi-vizualizare (NMF). Prin efectuarea unor analize suplimentare în cancerul de sân, am dezvăluit că ceRNA joacă roluri în aderența celulară, migrarea celulelor și comunicarea celulă-celulă. Rezultatele noastre au arătat, de asemenea, că ceRNA-urile pot reprezenta ținte promitatoare de medicamente și markeri pentru tratamentul și prognosticul cancerului.

Rezultate

LA pentru predicția perechilor ceRNA

Studiile actuale folosesc adesea PCC sau SI pentru a detecta perechi de ARNc. Această abordare ignoră sensibilitatea corelației dintre ARN-uri la nivelurile de expresie ale microARN-urilor lor partajate. Pentru a depăși această limitare, am folosit LA (Li, 2002) pentru a măsura schimbarea dinamică a corelației pentru o pereche de ARNc în funcție de nivelurile de expresie ale microARN-urilor lor partajate. Să presupunem că EXPR1 și EXPR2 reprezintă nivelurile de expresie a doi candidați ceRNA R1 și respectiv R2, în timp ce EXPMIC denotă suma nivelurilor de expresie ale tuturor microARN-urilor lor partajate, MIC. Am normalizat EXPR1 și EXPR2 folosind metoda scorului z astfel încât E (EXPR1) = E (EXPR2) = 0, Var (EXPR1) = Var (EXPR2) = 1, unde E (·) și Var (·) reprezintă așteptarea și varianța unei variabile aleatorii, respectiv.

Presupunând cele de mai sus, PCC între R1 și R2 este:

LA de R1 și R2 în ceea ce privește microARN-urile lor partajate este definit ca LA (R 1, R 2 | MIC) = E (g ′ (EXPMIC)), unde g (EXPMIC) = E (EXPR1 × EXPR2 | EXPMIC = expMIC ). Conform Stein Lemma (Stein, 1981), dacă suma nivelurilor de expresie ale tuturor microARN-urilor partajate MIC urmează distribuția normală standard, LA (R1, R2 | MIC) = E (EXPR1 × EXPR2 × EXPMIC), calculul din LA poate fi simplificat așa cum se arată mai jos:

unde N este numărul eșantionului. Am efectuat transformarea datelor pe EXPMIC folosind metoda Van der Waerden pentru a ne asigura că EXPMIC respectă distribuția normală standard. Pentru EXPMIC1, EXPMIC2, ⋯, EXPMICN, am obținut inițial rangurile lor r1, r2, ⋯, rN și ulterior am calculat valoarea transformată după cum urmează:

unde Φ (·) este funcția de distribuție cumulativă a distribuției normale standard.

modulelor

(A) Pregătirea datelor. Am obținut datele ARN-seq ale mARN-urilor și lncRNA-urilor, precum și datele microARN-seq ale microARN-urilor. Ulterior, am îndepărtat ARN-urile neexprimate și slab exprimate. În cele din urmă, am reținut ARN-urile care au fost prezentate în seturile de date de interacțiune ARN-microARN (aici este Mirwalk2.0) ca ceRNA-uri candidate. (B) Prezentare generală a LAceModule. Intrările din LAceModule sunt profiluri candidate de exprimare ceRNA, profiluri de expresie microARN și interacțiuni ARN-microARN. Pentru fiecare pereche de ceRNA candidat, se poate obține valoarea PCC, valoarea LA și gradul de semnificație al microRNA-urilor partajate (MS-P). Pentru perechile cu valori MS-P mai mari (pragul este 0,05), valorile PCC negative sau valorile LA ar trebui eliminate (adică valorile PCC și valorile LA ale acestor perechi sunt setate la zero) . Multi-view NMF este executat folosind matricea PCC, matricea LA și diferite K ca intrări. Cel mai bun K este selectat prin compararea a patru valori de evaluare a grupării. Ulterior, procedurile NMF multi-vizualizare sunt repetate de 10 ori cu cel mai bun K și valori inițiale diferite. Modulele finale sunt obținute prin gruparea consensuală a rezultatelor repetate.

tabelul 1

Valorile LA, PCC și SI ale perechilor ceRNA validate.

ceRNA1ceRNA2PCCLASIMS-P *Boală
ENSG00000234741ENSG00000171862−0,0580,040−0,0080,005BRCA
ENSG00000251562ENSG000000708310,043−0,0090,0020,001BRCA
ENSG00000251562ENSG00000135446−0,3770,000−0,0030,022BRCA
ENSG00000115414ENSG000000265080,082−0,003−0,0010,001BRCA
ENSG00000108821ENSG00000026508−0,0140,0820,0010,029BRCA
ENSG00000171862ENSG000000384270,3790,075−0,0040,002BRCA
ENSG00000038427ENSG000001396870,3680,0580,0000,003BRCA
ENSG00000226950ENSG000001680360,1310,103−0,0030,012LIHC
ENSG00000234741ENSG000001505930,205−0.205−0,0140,003LIHC
ENSG00000234741ENSG00000171862−0,003−0.107−0,0020,013LIHC
ENSG00000241388ENSG000000576630,035−0,068−0,0050,033LIHC
ENSG00000251164ENSG00000148516−0,0930,097−0,0010,004LIHC
ENSG00000251164ENSG00000168615−0,3920,410,0030,034LIHC