Asamblarea genomului de novo a varietății de orez indica IR64 folosind secvențierea Linked-Read și Nanopore

Abstract

IR64 este un soi de orez cu randament ridicat care a fost cultivat pe scară largă în întreaga lume. IR64 a fost înlocuit de soiuri moderne în majoritatea zonelor în creștere. Având în vedere că soiurile moderne sunt în mare parte descendenți sau rude ale IR64, analiza genetică a IR64 este valoroasă pentru genomica funcțională a orezului. Cu toate acestea, secvențele genomice la nivel cromozomial ale IR64 nu au fost disponibile anterior. Aici, am secvențiat genomul IR64 folosind citiri sintetice lungi obținute prin secvențierea cu citire legată și citiri ultra-lungi obținute prin secvențierea nanoporilor. Am integrat aceste date și am generat noul ansamblu al genomului IR64 de 367 Mb, echivalent cu 99% din dimensiunea estimată. Continuitatea ansamblului genomului IR64 a fost îmbunătățită în comparație cu cea a unui ansamblu de genom IR64 disponibil public generat doar de citiri scurte. Am adnotat 41.458 gene codificatoare de proteine, inclusiv 657 gene specifice IR64, care lipsesc în alte ansambluri de genom de orez de înaltă calitate IRGSP-1.0 din cultivarul japonic Nipponbare sau R498 din cultivarul indica Shuhui498. Ansamblul genomului IR64 va servi ca resursă genomică pentru genomica funcțională a orezului, precum și pentru reproducerea genomică și/sau moleculară.

IR64 este un soi iconic de orez indica (Oryza sativa L.) care a fost dezvoltat de Institutul Internațional de Cercetare a Orezului din Filipine în 1985 (Mackill și Khush 2018). IR64 este un descendent al „orezului minune” IR8, varietatea inițială a Revoluției Verzi. IR8 a crescut dramatic randamentul de cereale datorită genei semi-pitic sd1. În plus față de randamentul ridicat, IR64 are o calitate ridicată a alimentației și rezistență la boli, prin urmare IR64 a fost unul dintre cele mai populare soiuri de orez cultivate în sud-estul și Asia de Sud de la sfârșitul anilor 1980 până la începutul anilor 2000. Soiurile moderne cu randament mai mare și rezistență îmbunătățită la boli au înlocuit IR64 în multe țări în ultimele două decenii. Important, aceste soiuri moderne sunt în mare parte descendenți sau rude ale IR64 (Mackill și Khush 2018). În plus, liniile aproape izogene care conferă trăsături noi și îmbunătățite, cum ar fi toleranța la secetă și rezistența la scufundare, au fost dezvoltate în fondul genetic IR64. Prin urmare, analiza genetică a IR64 rămâne extrem de importantă pentru îmbunătățirea ulterioară a IR64 sau a descendenților săi.

Secvența secvenței genomice a soiului japonez japonic Nipponbare a fost analizată prin secvențierea BAC-by-BAC utilizând tehnologia de secvențiere Sanger (Goff și colab. 2002, IRGSP 2005). Progresele în tehnologiile de secvențiere cu randament ridicat au permis reechilibrarea întregului genom a mii de soiuri de orez japonic, indica și aus, precum și specii Oryza mai înrudite. Resecvențierea bazată pe referințe este o metodă puternică de detectare a micilor polimorfisme utilizate pentru analiza cantitativă a loci ale trăsăturilor și studiul asocierii la nivelul întregului genom (Huang și colab. 2010, Wang și colab. 2018). Cu toate acestea, resechențierea nu se aplică pentru variații structurale mari sau regiuni foarte diversificate. A fost raportat proiectul de asamblare a genomului de IR64, generat de citiri scurte, dar ansamblul este foarte fragmentat și constă din mii de schele (Schatz și colab. 2014). În 2014, au fost publicate secvențe genomice la nivel cromozomial ale soiului indica Shuhui498 (R498) (Du et al. 2017). Acest genom a fost determinat prin asamblarea hibridă utilizând platformele PacBio și Illumina. Calitatea asamblării a fost comparabilă cu secvențele BAC-by-BAC ale genomului Nipponbare.

Tehnologiile sintetice de citire lungă permit ca citirile ultra-lungi virtuale să fie derivate din citirile scurte generate de secvențieri cu randament ridicat, iar secvențierele cu o singură moleculă generează citiri ultra-lungi. Ansamblurile bazate pe aceste citiri lungi au o contiguitate mai mare decât cele bazate numai pe citiri scurte. În studiul de față, am secvențiat genomul IR64 folosind două platforme: 10x Genomics Chromium linked-reads și single-molecule Oxford Nanopore MinION. Am integrat date de secvențiere cu citire legată și date de secvențiere nanopore pentru a construi ansamblul genomului IR64 (Figura 1). Am folosit o hartă de legătură genetică disponibilă public, construită din linii consangvinizate recombinante (RIL) derivate din IR64 și Azucena pentru a construi supersafolduri la nivel cromozomial. Calitatea ansamblului genomului IR64 este comparabilă cu cea a genomului actual de referință al orezului japonic Nipponbare și indica Shuhui498, bazat pe integralitatea și acuratețea secvențelor genomului și analiza comparativă a genelor. Colectiv, oferim o nouă resursă a genomului pentru comunitatea de orez și o opțiune suplimentară pentru abordarea asamblării genomului de novo, rentabilă.

Ilustrație schematică a unui nou ansamblu al genomului IR64. Software-ul utilizat pentru analiză este indicat cu cursiv.

Materiale și metode

Extracția materialului vegetal și a ADN-ului

Semințele IR64 (International Rice Genebank Collection # 66970, selfed de cel puțin 10 ori la Institutul Național de Științe Agrobiologice, Japonia) au fost sterilizate și incubate pe mediu Murashige și Skoog suplimentat cu zaharoză 3% și agar 1% la pH 5,8 o cutie de plante la 28 ° timp de 8 zile. Frunzele răsadurilor vechi de 8 zile au fost înghețate în azot lichid și măcinate până la o pulbere fină cu mortar și pistil. ADN-ul cu greutate moleculară mare a fost extras cu tampon G2 (Qiagen) suplimentat cu proteinază K și RNază A la 60 ° peste noapte cu agitare ușoară. După centrifugare la 2000 × g timp de 30 min, supernatantul a fost încărcat într-un tip genomic 100 (Qiagen) pre-echilibrat cu Buffer QBT (Qiagen) și spălat cu Buffer QC (Qiagen) de două ori. ADN-ul a fost eluat cu tampon QF (Qiagen), precipitat cu alcool izopropilic, spălat cu etanol 70% și dizolvat în tampon EB (Qiagen). Concentrația de ADN a fost măsurată cu Qubit dsDNA High Sensitivity Assay Kit (Invitrogen).

Secvențe publice ale genomului orezului și date de adnotare

Secvențe genomice și date de adnotare pentru O. sativa subsp. japonica Nipponbare (IRGSP-1.0) și O. sativa subsp. indica Shuhui498 (R498) au fost descărcate de pe RAP-DB (https://rapdb.dna.affrc.go.jp/) (Kawahara și colab. 2013; Sakai și colab. 2013) și MBKBASE (http: // www. mbkbase.org/R498/) (Du et al. 2017), respectiv baze de date. De asemenea, am descărcat secvențe de genom IR64 disponibile public din Laboratorul Schatz (http://schatzlab.cshl.edu/data/rice/) (Schatz și colab. 2014). Având în vedere că nicio secvență de codificare (CDS) și secvențe de proteine nu erau accesibile pe site, am extras secvențe CDS din secvența genomului folosind un fișier GFF și tradus în secvențe de proteine. Pentru detectarea elementelor repetitive, am folosit mipsREdat_9.3p_Poaceae_TEs.fasta descărcat din baza de date PGSB (http://pgsb.helmholtz-muenchen.de/plant/) (Spannagl et al. 2017).