Biblioteci la îndemână Python pentru formatare și curățare a datelor
23 august 2016 • 5 minute citite
Biblioteci la îndemână Python pentru formatare și curățare a datelor
Lumea reală este dezordonată, la fel și datele sale. Atât de dezordonat, încât un sondaj recent a raportat că oamenii de știință își petrec 60% din timp curățând datele. Din păcate, 57% dintre ei consideră că este cel mai puțin plăcut aspect al muncii lor.
Datele de curățare pot consuma mult timp, dar au apărut multe instrumente pentru a face această datorie crucială puțin mai suportabilă. Comunitatea Python oferă o serie de biblioteci pentru a face datele ordonate și lizibile - de la stilizarea DataFrames la seturi de date anonimizate.
Spuneți-ne ce biblioteci vi se par utile - căutăm întotdeauna să acordăm prioritate bibliotecilor pe care să le adăugați în notebook-urile Mode Python.

Dora este concepută pentru analize exploratorii; în mod specific, automatizarea celor mai dureroase părți ale acesteia, cum ar fi selectarea și extragerea caracteristicilor, vizualizarea și - ați ghicit - curățarea datelor. Funcțiile de curățare includ:
- Citirea datelor cu valori lipsă și slab scalate
- Imputarea valorilor lipsă
- Scalarea valorilor variabilelor de intrare
datacleaner
Surpriză, surpriză, curățarea de date vă curăță datele - dar numai odată ce se află într-un DataFrame pandă. De la creatorul Randy Olson: „Datacleaner nu este o magie și nu va lua un blob neorganizat de text și nu-l va analiza în mod automat.”
Cu toate acestea, va renunța la rânduri cu valori lipsă, va înlocui valorile lipsă cu modul sau mediana pe bază de coloană cu coloană și va codifica variabile nenumerice cu echivalenți numerici. Această bibliotecă este destul de nouă, dar din moment ce DataFrames este fundamental pentru analiza în Python, merită verificat.
Creat de: Randy Olson
Unde să aflați mai multe: https://github.com/rhiever/datacleaner