Învățarea codificării specifice Chinei pentru similitudinea fonetică

de Marina Danilevsky, IBM

Este familiar să faci gimnastica mentală pentru a face distincția fenetică între cuvinte și fraze, cum ar fi „aud” la „sunt aici” sau „nu pot așa, dar tone” la „nu pot coase nasturi”, este familiar pentru oricine a întâlnit mesaje text autocorectate, mesaje de socializare punny și altele asemenea. Deși la prima vedere poate părea că similitudinea fonetică poate fi cuantificată doar pentru cuvintele audibile, această problemă este adesea prezentă în spații pur textuale.

Abordările AI pentru analizarea și înțelegerea textului necesită o intrare curată, ceea ce implică, la rândul său, o cantitate necesară de pre-procesare a datelor brute. Homofonele și sinofoanele incorecte, indiferent dacă sunt folosite greșit sau în glumă, trebuie corectate la fel ca orice altă formă de ortografie sau eroare gramaticală. În exemplul de mai sus, transformarea corectă a cuvintelor „auzi” și „așa” la omologii lor corecți din punct de vedere fonetic necesită o reprezentare solidă a similarității fonetice între perechile de cuvinte.

Majoritatea algoritmilor pentru similitudinea fonetică sunt motivați de cazuri de utilizare în limba engleză și sunt proiectați pentru limbile indo-europene. Cu toate acestea, multe limbi, cum ar fi chineza, au o structură fonetică diferită. Sunetul vorbirii unui caracter chinez este reprezentat de o singură silabă în pinyin, sistemul oficial de romanizare al chinezilor. O silabă pinyin constă din: o inițială (opțională) (cum ar fi „b”, „zh” sau „x”), o finală (cum ar fi „a”, „ou”, „wai” sau „yuan”) și ton (din care sunt cinci). Cartografierea acestor sunete de vorbire la fonemele englezești are ca rezultat o reprezentare destul de inexactă, iar utilizarea algoritmilor de similaritate fonetică indo-europeană agravează problema. De exemplu, doi algoritmi binecunoscuți, Soundex și Double Metaphone, indică consoane în timp ce ignoră vocalele (și nu au concept de tonuri).

Deoarece o silabă pinyin reprezintă în medie șapte caractere chinezești diferite, preponderența homofonelor este chiar mai mare decât în limba engleză. Între timp, utilizarea pinyinului pentru crearea de text este extrem de răspândită în aplicațiile mobile și de chat, atât atunci când se utilizează vorbirea către text, cât și când se tastează direct, deoarece este mai practic să introduceți o silabă pinyin și să selectați caracterul dorit. Ca rezultat, erorile de intrare pe bază de fonetică sunt extrem de frecvente, evidențiind necesitatea unui algoritm de similaritate fonetică foarte precis, pe care să se poată baza pentru a remedia erorile.