Introducerea arhitecturii DIET de ultimă generație care depășește reglajul fin BERT și este de 6 ori mai rapidă

La Rasa, suntem încântați să facem accesibilă tehnologia de învățare automată de vârf într-un flux de lucru prietenos cu dezvoltatorii. Cu Rasa 1.8, echipa noastră de cercetători lansează o nouă arhitectură de transformare ușoară și multitask de ultimă generație pentru NLU: Transformator de intenție și entitate duală (DIET).

În această postare, vom vorbi despre funcțiile DIET și despre modul în care îl puteți utiliza în Rasa pentru a obține mai multă acuratețe decât orice am avut înainte. Lansăm o lucrare academică care demonstrează că această nouă arhitectură îmbunătățește stadiul actual al tehnicii, depășește reglajul fin al BERT și este de șase ori mai rapid de antrenat.

Ce este DIETA

DIET este o arhitectură de transformare cu mai multe sarcini care gestionează atât clasificarea intenției, cât și recunoașterea entității împreună. Oferă posibilitatea de a conecta și reda diverse încorporări pre-antrenate, cum ar fi BERT, GloVe, ConveRT și așa mai departe. În experimentele noastre, nu există un singur set de încorporări care să fie în mod constant cel mai bun în diferite seturi de date. Prin urmare, o arhitectură modulară este deosebit de importantă.

De ce să folosiți DIETA

Modelele de limbă pre-instruite la scară largă nu sunt ideale pentru dezvoltatorii care dezvoltă aplicații de conversație AI.

DIETA este diferită deoarece:

Este o arhitectură modulară care se încadrează într-un flux de lucru tipic de dezvoltare software
Paralelează modele de limbă pre-instruite la scară largă în ceea ce privește acuratețea și performanța
Îmbunătățește stadiul actual al tehnicii și este de 6 ori mai rapid de antrenat

Modelele de limbă pre-instruite la scară largă au arătat rezultate promițătoare în ceea ce privește criteriile de înțelegere a limbii, cum ar fi GLUE și SuperGLUE, și, în special, au prezentat îmbunătățiri considerabile față de alte metode de pre-formare, cum ar fi GloVe și abordările supravegheate. Deoarece aceste încorporări sunt instruite pe corpuri de text pe scară largă în limbaj natural, sunt bine echipate pentru a generaliza între sarcini.

Anul trecut, am contribuit la construirea unui asistent de asistență care să automatizeze conversațiile și procesele IT repetabile. Am integrat asistentul cu BERT, deoarece la vremea respectivă, BERT și alte modele de limbă mare au obținut performanțe de top pentru o varietate de sarcini NLP. Deși a ajutat la rezolvarea unor probleme, BERT și-a prezentat și propriile provocări; era foarte lent și avea nevoie de un GPU pentru a se antrena.

Modelele la scară largă tind să fie intensive în calcul, să antreneze intensiv timp și să prezinte provocări pragmatice pentru dezvoltatorii de software care doresc să construiască asistenți AI robusti care să poată fi instruiți rapid și iterați. Mai mult, dacă construiți asistenți AI multilingvi, este important să obțineți performanțe la nivel înalt fără o pregătire prealabilă la scară largă, deoarece majoritatea modelelor pre-instruite sunt instruite pe text în limba engleză.