Îmbunătățirea înțelegerii limbii cu învățarea fără supraveghere
Am obținut rezultate de ultimă generație pentru o suită de sarcini lingvistice diverse, cu un sistem scalabil, agnostic de sarcini, pe care îl lansăm, de asemenea. Abordarea noastră este o combinație a două idei existente: transformatoare și pregătire preliminară nesupravegheată. Aceste rezultate oferă un exemplu convingător că împerecherea metodelor de învățare supravegheate cu pregătirea nesupravegheată funcționează foarte bine; aceasta este o idee pe care mulți au explorat-o în trecut și sperăm că rezultatul nostru va motiva cercetări suplimentare în aplicarea acestei idei pe seturi de date mai mari și mai diverse.
Citiți codul PaperView| SNLI | Măsurare textuală | 89.3 | 89,9 |
| Potrivit MNLI | Măsurare textuală | 80.6 | 82.1 |
| MNLI nepotrivit | Măsurare textuală | 80.1 | 81.4 |
| SciTail | Măsurare textuală | 83.3 | 88.3 |
| QNLI | Măsurare textuală | 82.3 | 88.1 |
| RTE | Măsurare textuală | 61.7 | 56.0 |
| STS-B | Asemănare semantică | 81,0 | 82,0 |
| QQP | Asemănare semantică | 66.1 | 70.3 |
| MRPC | Asemănare semantică | 86,0 | 82.3 |
| RASĂ | Înțelegerea lecturii | 53.3 | 59.0 |
| ROCStories | Raționament Commonsense | 77,6 | 86,5 |
| COPA | Raționament Commonsense | 71.2 | 78,6 |
| SST-2 | Analiza sentimentelor | 93.2 | 91.3 |
| CoLA | Acceptabilitate lingvistică | 35.0 | 45.4 |
| LIPICI | Etalon de referință pentru mai multe sarcini | 68,9 | 72,8 |
Sistemul nostru funcționează în două etape; mai întâi pregătim un model de transformator pe o cantitate foarte mare de date într-o manieră nesupravegheată - folosind modelarea limbajului ca semnal de antrenament - apoi ajustăm acest model pe seturi de date supravegheate mult mai mici pentru a-l ajuta să rezolve sarcini specifice. Am dezvoltat această abordare urmărind munca noastră de neuroni sentimentali, în care am observat că tehnicile de învățare nesupravegheate pot produce caracteristici surprinzător de discriminative atunci când sunt instruiți cu suficiente date. Aici am vrut să explorăm în continuare această idee: putem dezvolta un singur model, să-l instruim într-un mod nesupravegheat pe o cantitate mare de date și apoi să-l reglăm fin pentru a obține performanțe bune în multe sarcini diferite? Rezultatele noastre indică faptul că această abordare funcționează surprinzător de bine; același model de bază poate fi reglat pentru sarcini foarte diferite, cu o adaptare minimă.
Această lucrare se bazează pe abordarea introdusă în învățarea secvențială semi-supravegheată, care a arătat cum să îmbunătățim performanțele clasificării documentelor prin utilizarea pre-instruirii nesupravegheate a unui LSTM urmată de reglarea fină supravegheată. De asemenea, extinde ULMFiT, cercetare care arată cum un singur model de limbaj LSTM agnostic cu set de date poate fi reglat fin pentru a obține performanțe de ultimă generație pe o varietate de seturi de date de clasificare a documentelor; munca noastră arată cum un model bazat pe Transformer poate fi utilizat în această abordare pentru a reuși la o gamă mai largă de sarcini dincolo de clasificarea documentelor, cum ar fi raționamentul bunului simț, similitudinea semantică și înțelegerea lecturii. Este, de asemenea, similar cu dar mai agnostic de sarcini decât ELMo, care încorporează pregătirea prealabilă, dar folosește arhitecți personalizați pentru a obține rezultate de ultimă generație într-o suită largă de sarcini.
Foarte puțină reglare a fost folosită pentru a obține rezultatele noastre. Toate seturile de date utilizează un singur model de limbaj direct, fără niciun ansamblu, iar majoritatea rezultatelor raportate utilizează exact aceleași setări de hiperparametru.
Un rezultat de care suntem deosebit de entuziasmați este performanța abordării noastre pe trei seturi de date - COPA, RACE și ROCStories - concepute pentru a testa raționamentul comun și înțelegerea lecturii. Modelul nostru obține noi rezultate de ultimă generație pe aceste seturi de date cu o marjă largă. Se consideră că aceste seturi de date necesită raționamente multi-propoziții și cunoștințe semnificative ale lumii pentru a rezolva, sugerând că modelul nostru îmbunătățește aceste abilități în principal prin învățare nesupravegheată. Acest lucru sugerează că există speranță pentru dezvoltarea capacităților complexe de înțelegere a limbajului prin tehnici nesupravegheate.