Provocări în procesarea limbajului natural clinic pentru normalizarea automată a tulburărilor -

Adăugați la Mendeley

Repere

Normalizarea tulburărilor în textul clinic are aplicații pe scară largă.

Normalizatorii clinici trebuie să gestioneze formatarea ad-hoc, jargonul și acronimele ambigue.

Vocabularul tulburărilor este mai bogat în text clinic decât rezumatele biomedicale.

Normalizarea cu învățarea în perechi a clasificării gestionează vocabularul bogat.

Îmbunătățirile suplimentare de normalizare necesită o recunoaștere îmbunătățită a entității denumite.

Abstract

fundal

Identificarea variabilelor cheie, cum ar fi tulburările din narațiunile clinice din dosarele medicale electronice, are aplicații pe scară largă în practica clinică și în cercetarea biomedicală. Cercetările anterioare au demonstrat o performanță redusă a tulburării numite recunoaștere entitate (NER) și normalizare (sau fundamentare) în narațiunile clinice decât în publicațiile biomedicale. În această lucrare, ne propunem să identificăm cauza acestei diferențe de performanță și să introducem soluții generale.

Metode

Folosim proprietăți de închidere pentru a compara bogăția vocabularului din textul narativ clinic cu publicațiile biomedicale. Abordăm atât tulburarea NER, cât și normalizarea folosind metodologii de învățare automată. Metodologia noastră NER se bazează pe câmpuri aleatorii condiționate cu lanț liniar, cu o abordare bogată a caracteristicilor și introducem mai multe îmbunătățiri pentru a spori cunoștințele lexicale ale sistemului NER. Metoda noastră de normalizare - niciodată aplicată anterior datelor clinice - folosește învățarea în perechi pentru a clasa pentru a învăța automat variația termenului direct din datele de instruire.

Rezultate

Constatăm că, deși dimensiunea vocabularului general este similară între narațiunea clinică și publicațiile biomedicale, narațiunea clinică folosește o terminologie mai bogată pentru a descrie tulburările decât publicațiile. Aplicăm sistemul nostru, DNorm-C, pentru a localiza mențiunile de tulburare și în narațiunile clinice din recenta sarcină eHealth ShARe/CLEF. Pentru NER (strict span-only), sistemul nostru atinge precizie = 0,797, rechemare = 0,713, scor f = 0,753. Pentru sarcina de normalizare (durată strictă + concept) se obține precizie = 0,712, rechemare = 0,637, scor f = 0,672. Îmbunătățirile descrise în acest articol măresc scorul f NER cu 0,039 și scorul f de normalizare cu 0,036. De asemenea, descriem o versiune cu rechemare ridicată a NER, care crește rechemarea de normalizare până la 0,744, deși cu precizie redusă.