Ansamblu transcriptom de la alinierea ARN-seq citită lung cu textul complet al biologiei genomului StringTie2

Abstract

Secvențierea ARN utilizând cele mai recente instrumente de secvențiere cu o singură moleculă produce citiri care au lungimea a mii de nucleotide. Capacitatea de a asambla aceste lecturi lungi poate îmbunătăți foarte mult sensibilitatea analizelor citite lung. Aici vă prezentăm StringTie2, un ansamblor de transcriptom ghidat de referință care funcționează atât cu citiri scurte cât și lungi. StringTie2 include noi metode de gestionare a ratei de eroare ridicate a citirilor lungi și oferă posibilitatea de a lucra cu supercitiri de lungime completă asamblate din citiri scurte, ceea ce îmbunătățește în continuare calitatea ansamblurilor de citire scurtă. StringTie2 este mai precis și mai rapid și folosește mai puțină memorie decât toate instrumentele de analiză comparabile cu citire scurtă și lungă.

transcriptom

fundal

Măsurarea abundențelor de transcrieri într-un set de date ARN-secvențiere (ARN-seq) este un mod puternic de a înțelege funcționarea unei celule. Pur și simplu alinierea citirilor la un genom de referință poate oferi estimări aproximative ale expresiei medii a genelor și indiciu la utilizarea diferențiată a siturilor de îmbinare [1], dar pentru a crea o imagine exactă a activității genelor, trebuie să asamblați colecții de citiri în transcrieri. Împletirea alternativă este foarte frecventă la eucariote, cu aproximativ 90% din genele umane care codifică proteinele multi-exoni și 30% din genele ARN necARN (ncRNA) având izoforme multiple [2, 3]. În timp ce numărul de gene adnotate care codifică proteinele umane a rămas mai mult sau mai puțin constant în ultimul deceniu, numărul de gene ncRNA și izoforme care codifică proteinele a continuat să crească [4].