Curățarea datelor în Python Text Curățarea datelor în Python

Introducere

Zilele în care s-ar obține date în foi de calcul tabelate sunt cu adevărat în spatele nostru. Un moment de reculegere pentru datele care se află în buzunarele foii de calcul. Astăzi, mai mult de 80% din date sunt nestructurate - sunt fie prezente în silozuri de date, fie împrăștiate în arhivele digitale. Datele sunt produse pe măsură ce vorbim - de la fiecare conversație pe care o purtăm în social media până la fiecare conținut generat din surse de știri. Pentru a produce orice informație semnificativă care poate fi acționată din date, este important să știm cum să lucrați cu acestea în forma sa nestructurată. În calitate de cercetător de date la una dintre cele mai rapide companii cu creștere a științelor decizionale, pâinea și untul meu provin din obținerea unor informații semnificative din informații text nestructurate.

Unul dintre primii pași în lucrul cu datele text este pre-procesarea acestora. Este un pas esențial înainte ca datele să fie pregătite pentru analiză. Majoritatea datelor text disponibile sunt extrem de nestructurate și zgomotoase - pentru a obține informații mai bune sau pentru a construi algoritmi mai buni, este necesar să se joace cu date curate. De exemplu, datele din rețelele de socializare sunt extrem de nestructurate - este o comunicare informală - greșeli de greșeală, gramatică proastă, folosirea argoului, prezența conținutului nedorit, cum ar fi adresele URL, cuvintele cheie, expresiile etc. sunt suspecții obișnuiți.