Identificarea unui Regulon de degradare a p-cumaratului în Rhodopseudomonas palustris de către Xpression, an
ABSTRACT
Secvențierea cu randament ridicat a ADNc preparat din ARN, o abordare cunoscută sub numele de ARN-seq, devine din ce în ce mai utilizată ca metodă pentru analiza transcriptomului. În ciuda numeroaselor sale avantaje, adoptarea pe scară largă a tehnicii a fost împiedicată de lipsa unor instrumente open-source ușor de utilizat, integrate, pentru analiza datelor secvenței de nucleotide generate. Aici descriem Xpression, un instrument integrat pentru procesarea datelor procariote ARN-seq. Instrumentul este ușor de utilizat și este complet automatizat. Realizează toate sarcinile esențiale de procesare, inclusiv extracția secvenței de nucleotide, alinierea, cuantificarea, normalizarea și vizualizarea. Important, Xpression procesează date de secvență de nucleotide multiplexate și specifice catenelor. Extrage și decupează secvențe specifice din fișiere și cuantifică separat citirile de sens și antisens în rezultatele finale. Ieșirile din instrument pot fi, de asemenea, utilizate în mod convenabil în analiza din aval. În această lucrare, arătăm utilitatea Xpression pentru a prelucra date ARN-seq specifice catenelor pentru a identifica genele reglementate de CouR, un factor de transcripție care controlează degradarea p-cumaratului de către bacteria Rhodopseudomonas palustris .

INTRODUCERE
ARN-seq este o tehnică recent dezvoltată pentru analiza globală a transcrierilor ARNm care implică utilizarea tehnologiei de secvențiere cu randament ridicat (18). Are o serie de avantaje față de tehnologiile tradiționale bazate pe microarrays, inclusiv o sensibilitate îmbunătățită, o gamă dinamică crescută și un cost mai mic. Ca urmare, devine instrumentul preferat pentru studiile de expresie genică. În ciuda multor avantaje, adoptarea pe scară largă a ARN-seq este împiedicată de lipsa unor instrumente open-source ușor de utilizat, integrate, pentru procesarea datelor secvenței de nucleotide generate ca rezultat al tehnicii. Milioane de citiri secvențe brute sunt generate pentru fiecare experiment ARN-seq, ceea ce face imposibilă prelucrarea datelor de secvențiere fără instrumente bioinformatice.
Au fost dezvoltate o serie de instrumente pentru procesarea automată a datelor ARN-seq. Soluțiile comerciale, precum Avadis NGS și Illumina CASAVA, oferă caracteristici bogate, dar costurile lor sunt prohibitive pentru laboratoarele mici. Unelte necomerciale, cum ar fi ArrayExpressHTS (6) și rnaSeqMap (11), au fost recent lansate, dar niciunul dintre instrumentele existente nu este conceput special pentru prelucrarea datelor procariote ARN-seq. Datorită dimensiunilor lor mai mici ale genomului, datele procariote ARN-seq pot fi multiplexate prin adăugarea unui cod de bare la fiecare probă pentru a reduce costurile de secvențiere pe probă. În plus, metodele de construcție a bibliotecii specifice șirurilor pot fi utilizate pentru a păstra informațiile direcționale ale transcrierilor procariote (2, 8). Aceste metode produc secvențe într-o direcție nativă, precum și într-o direcție de complement invers în raport cu orientarea cadrului de citire deschis (2, 8). Sunt necesare abilități de programare pentru a personaliza instrumentele bioinformatice existente pentru prelucrarea acestor tipuri de date ARN-seq.
Aici descriem Xpression, un instrument integrat pe care l-am dezvoltat pentru a procesa date procariote ARN-seq generate cu tehnologia de secvențiere Illumina. Instrumentul acceptă comenzi simple de la utilizatori printr-o interfață grafică, este complet automatizat și finalizează toate sarcinile de procesare, începând de la extragerea secvenței până la generarea unui fișier de format de vizualizare general care poate fi deschis de software-ul de vizualizare precum Artemis (http: // www.sanger.ac.uk/resources/software/artemis/) sau Integrated Genomics Viewer (http://www.broadinstitute.org/igv/). Acesta va procesa date care nu sunt specifice fiecărei componente. Dar este, de asemenea, conceput pentru a analiza date multiplexate și specifice șirurilor. Extrage și decupează secvențe specifice din fișiere și cuantifică separat citirile de sens și antisens în rezultatele finale. Ieșirile din Xpression pot fi, de asemenea, utilizate în mod convenabil în analiza din aval. De exemplu, utilizatorii pot aplica un program software statistic, cum ar fi DESeq (1), rapoartelor de expresie genică pentru a identifica gene exprimate diferențial.