Identificarea și corectarea conștientă de filogenie a secvențelor etichetate greșit taxonomic

Alexey M. Kozlov

1 Laboratorul Exelixis, Grupul de calcul științific, Institutul de studii teoretice Heidelberg, Schloss-Wolfsbrunnenweg 35, 69118 Heidelberg, Germania

identificarea

Jiajie Zhang

1 Laboratorul Exelixis, Grupul de calcul științific, Institutul de studii teoretice Heidelberg, Schloss-Wolfsbrunnenweg 35, 69118 Heidelberg, Germania

Pelin Yilmaz

2 Grup de cercetare a genomicii microbiene și a bioinformaticii, Institutul Max Planck pentru microbiologie marină, 28359 Bremen, Germania

Frank Oliver Glöckner

2 Grup de cercetare a genomicii microbiene și a bioinformaticii, Institutul Max Planck pentru microbiologie marină, 28359 Bremen, Germania

3 Jacobs University Bremen gGmbH, Campus Ring 1, 28759 Bremen, Germania

Alexandros Stamatakis

1 Laboratorul Exelixis, Grupul de calcul științific, Institutul de studii teoretice Heidelberg, Schloss-Wolfsbrunnenweg 35, 69118 Heidelberg, Germania

4 Karlsruhe Institute of Technology, Institute for Theoretical Informatics, Postfach 6980, 76128 Karlsruhe, Germania

Date asociate

Abstract

INTRODUCERE

Taxonomia este știința clasificării și denumirii grupurilor de organisme, de obicei bazată pe caracteristici comune și/sau presupuse relații naturale. Taxonomiile sunt de o importanță fundamentală pentru cercetarea biologică, medicală și de mediu. În plus, ele joacă un rol cheie în domenii precum gestionarea speciilor invazive (1) sau facilitarea comerțului (2).

Deși primele încercări de clasificare a organismelor vii pot fi urmărite în antichitate (de exemplu, Aristotel), taxonomia modernă își are originea în opera lui Carl Linnaeus. Sistemul său unic de binom, care este încă folosit în prezent, a denumit specii standardizate în toate domeniile vieții, de la bacterii la animale. Cu toate acestea, metodele de clasificare taxonomică au asistat la o schimbare de paradigmă în ultimele decenii, determinată de progresul în biologia moleculară și bioinformatică. În loc să se bazeze exclusiv pe, de ex. asemănări morfologice sau fiziologice între organisme, taxonomiștii țin acum în mod obișnuit de asemenea relații filogenetice, după cum se deduce din datele moleculare (ADN sau secvențe de aminoacizi).

În timp ce filogeniile moleculare oferă un cadru mai robust pentru conceperea taxonomiilor, ele prezintă unele potențiale capcane. În primul rând, o filogenie reprezintă în esență o ipoteză evolutivă, care este supusă cantității și calității datelor secvenței, calității alinierii, precum și metodei și parametrilor de inferență. Prin urmare, taxonomiile care se bazează pe filogenii trebuie actualizate pe măsură ce noi secvențe și metode devin disponibile. Acest lucru nu este adesea cazul. Mai mult, problemele inerente datelor moleculare, cum ar fi secvențe himerice și/sau de calitate scăzută (3,4), pot afecta inferențele filogenetice. În cele din urmă, eroarea umană este întotdeauna prezentă; culturi greșite pentru organisme sau etichete greșite în bazele de date publice pot complica și mai mult analiza filogenetică și adnotarea taxonomică ulterioară.