Corpul FoodBase este o nouă resursă a entităților alimentare adnotate Baza de date Oxford Academic

Gorjan Popovski, Barbara Koroušić Seljak, Tome Eftimov, Corpus FoodBase: o nouă resursă de entități alimentare adnotate, Baza de date, Volumul 2019, 2019, baz121, https://doi.org/10.1093/database/baz121

Abstract

Introducere

În mineritul textului biomedical, automatizarea extracției informațiilor (IE) care vizează descoperirea relațiilor de orice tip din literatura științifică a devenit o sarcină foarte importantă. Unul dintre primii pași din IE este realizat prin recunoașterea entității denumite (NER), care localizează entitățile denumite în text pentru a fi clasificate în categorii predefinite. Metodele NER de cea mai bună performanță sunt, de obicei, bazate pe corpus (1-3), care necesită un corpus de entități adnotate de interes. Diferite corpuri adnotate au fost deja produse prin sarcini partajate, cum ar fi BioNLP (4-8) și BioCreative (9-13), unde principalul obiectiv este provocarea și încurajarea echipelor de cercetare cu privire la problemele de procesare a limbajului natural (NLP). Aceste corpuri adnotate pot fi utilizate pentru diferite scopuri de cercetare, cum ar fi extracția evenimentelor genetice, genetica cancerului, curarea căii, adnotarea corpului cu ontologie de reglare a genelor, rețelele de reglare a genelor în bacterii, biotopii bacteriilor, extragerea reglementării dezvoltării semințelor în plante, boală entități legate de simptome, relații care există între entități chimice/medicamentoase și entități de boală, metode pentru adnotări, cum ar fi boala, fenotipul și reacțiile adverse în diferite surse de text literare, extragerea informațiilor din istoricul familial și similitudinea textului semantic clinic.

Cu toate acestea, în 2019, Lancer Planetary Health a publicat că 2019 este anul nutriției, unde accentul ar trebui pus pe descoperirea relațiilor dintre sistemele alimentare, sănătatea umană și mediul înconjurător. Contrar numărului mare de corpuri adnotate disponibile cu entități din domeniul biomedical, în domeniul alimentar există un număr limitat de resurse care ar putea fi utilizate pentru cercetare.

Astăzi, există un număr mare de rețete publicate pe internet, care conțin informații valoroase despre alimente și nutriție. Cu toate acestea, din câte știm, există doar două corpuri existente de rețete adnotate: (i) corpul r-FG (graficul fluxului de rețete) (14) și (ii) corpusul CURD (baza de date a rețetelor universității Carnegie Mellon) 15 ). Corpusul r-FG este format din 266 de rețete japoneze adnotate folosind opt etichete legate de alimente, instrument, durată, cantitate, acțiunea bucătarului, acțiunea alimentelor, starea alimentelor și starea instrumentelor. Corpusul CURD este format din 300 de rețete adnotate și 350 de neanotate, pentru care Limbajul minim de instrucțiuni pentru limba bucătăriei (LAPTE) este utilizat pentru adnotare (15).

Să menționăm sistemul de analiză semantică UCREL (USAS), care este un cadru pentru analiza semantică automată a textului. Distinge între 21 de categorii majore, dintre care una este și „alimentația și agricultura” (F) (16). Mai mult, oferă informații semantice suplimentare care sunt utilizate în corpusul Hansard (17). Corpusul Hansard a fost creat recent ca parte a proiectului SAMUELS (Semantic Annotation and Mark-Up for Enhancing Lexical Searches) (18), cu scopul de a extrage discursuri (adică dezbateri digitalizate) susținute în Parlamentul britanic între 1803 și 2005.

Ca parte a activității noastre anterioare (19-20), am dezvoltat drNER, care este un sistem NER bazat pe reguli utilizat pentru IE din recomandări dietetice bazate pe dovezi, unde, pe lângă entități legate de nutriție și recomandări dietetice, entitățile alimentare erau și ale noastre interes. Cu toate acestea, drNER funcționează cu date nestructurate. În drNER, entitățile alimentare sunt extrase folosind etichetele semantice alimentare obținute prin analiza semantică UCREL la un nivel simbolic combinat cu regulile de algebră booleană pentru a defini expresii din text care sunt entități alimentare.

Deși corpurile adnotate de rețete menționate mai sus există, acestea sunt limitate. Corpusul r-FG este compus doar din rețete japoneze de mâncare, iar atât corpusul r-FG, cât și corpusul CURD utilizează scheme de adnotare care nu sunt suficient de detaliate, oferind doar o entitate alimentară generală; fără a diferi între grupurile de feluri de mâncare (de exemplu, supe, feluri de mâncare, feluri de mâncare cu ouă, ceai, cafea). De asemenea, drNER oferă doar o entitate alimentară generală, deoarece a fost dezvoltată pentru a distinge între alimente, nutrienți și cantitate/unitate. USAS poate oferi informații suplimentare despre entitatea alimentară selectată, dar limitarea sa este că funcționează la nivel de simbol. Un simbol, așa cum este definit ca o problemă în NLP, este un șir de caractere adiacente între delimitatori predefiniți (de exemplu, spații albe, punctuație). Cel mai frecvent, un singur simbol este un singur cuvânt, număr sau abreviere. De exemplu, dacă avem „pui la grătar” ca entitate alimentară care trebuie procesată pentru relațiile sale, entitățile „la grătar” și „pui” vor obține etichete semantice separate. Din aceste motive, am decis să creăm un FoodBase, care este un corpus nou care poate fi utilizat pentru extragerea automată a denumirii de entități alimentare și include entități alimentare adnotate cu etichetele semantice din corpusul Hansard.

Metode și materiale

În această secțiune, vă prezentăm modul în care a fost selectată o resursă de rețete pentru a fi utilizate pentru IE. Apoi, corpusul Hansard de etichete semantice este descris mai detaliat. Continuăm prezentând FoodIE, adică un NER bazat pe reguli (21), care este utilizat pentru structurarea rețetelor. În primul rând, îi descriem pe scurt pașii de bază și apoi ne concentrăm pe evaluarea acestuia și introducerea unui nou pas care a fost adăugat la FoodIE cu scopul adnotării semantice a entităților alimentare extrase.

Selecția rețetei

Pentru a începe crearea corpusului FoodBase cu entități alimentare adnotate, am selectat 1000 de rețete diferite din Allrecipes (22), care este cea mai mare rețea socială axată pe alimente, unde toată lumea joacă un rol în a ajuta bucătarii să descopere și să împărtășească gătitul acasă. Am selectat această rețea deoarece toată lumea poate posta rețete pe Allrecipes, deci avem o variabilitate în modul în care utilizatorii se exprimă. Rețetele au fost selectate din cinci categorii de rețete: „Aperitive/Gustări”, „Mic dejun/Prânz”, „Desert”, „Cină” și „Băuturi”, inclusiv 200 de rețete pentru fiecare categorie de rețete. Pentru fiecare rețetă, am colectat informații despre numele rețetei în limba engleză, lista ingredientelor sale și instrucțiunile de preparare în limba engleză. Lista ingredientelor consta în nume și cantități de ingrediente englezești în unități nestandardizate și măsuri de uz casnic prevăzute în limba engleză (de exemplu, „1 vinete mari, înjumătățite pe lungime”, „1 pachet (8 uncii) brânză feta mărunțită”).