Învățare automată - Cel mai bun mod de a curăța și normaliza o cantitate mare de date bazându-se pe potrivirea șirurilor

În prezent lucrez la un proiect de modelare a datelor ca parte a proiectului meu universitar de vară. Datele despre clienți necesită multă curățare, deoarece un număr de coloane se bazează pe inputul uman și au text gratuit.

Pentru a da un exemplu, coloana Nume companie are mai multe intrări pentru aceeași companie. Pentru "Hugo Boss" aceasta include „Hugo Boss”, „Huggo Boss”, „Hugo Boss Ltd”.

Aș putea să trec prin fiecare rând și să identific toate valorile care au fost folosite și să creez o hartă pentru fiecare intrare, totuși, având în vedere că am de-a face cu un milion de înregistrări, acest lucru este foarte consumator de timp și nu este foarte ideal.

Știu oamenii un cod sursă al unei astfel de implementări/similare? Am analizat algoritmul de potrivire, totuși se bazează pe un model pre-calculat. Ce alt algoritm de potrivire sau tehnici de învățare automată pot folosi pentru a dezvolta un proces automat care ar curăța datele, adică potriviți toate numele diferite cu un singur nume.

Orice ajutor ar fi apreciat.

4 Răspunsuri 4

Acest domeniu de cercetare se numește „potrivire de date” sau „legătură de înregistrare”.

Există o carte de sondaje foarte bună despre tehnicile pe care le puteți folosi de Peter Christen. De asemenea, el intră adânc în modele de învățare automată și cum să le îmbunătățească din abordarea de bază, cum ar fi distanțele simple de șir (așa cum au sugerat deja alte răspunsuri).

Pentru a vă oferi un început, puteți încerca să calculați caracterele n-grame ale titlurilor dvs.