Șapte pași curați pentru a vă remodela datele cu panda sau modul în care folosesc Python unde Excel nu reușește de Tich

Tich Mangono

17 noiembrie 2017 · 10 min de citire

Acum câteva săptămâni, un coleg mi-a trimis o foaie de calcul cu date despre o intervenție de sănătate publică, care conținea mai multe file, câte o filă pe organizație. Sarcina a fost de a dezvolta un tablou de bord flexibil pentru a explora aceste date. Problema era că datele erau în format larg, dar aveam nevoie de un format lung. Înainte, aceasta ar fi fost doar o altă sarcină manuală de copiere și lipire și alte sarcini teribil de lungi și repetitive, dar am decis să folosesc biblioteca Python's Pandas pentru a automatiza această sarcină, așa că am început să lucrez la dezvoltarea scriptului. În 30 de minute, am avut un cod flexibil, reutilizabil, care ulterior mi-a salvat ore întregi de muncă manuală inutilă!

pași

Aș dori să vă împărtășesc procesul meu în cazul în care apare în propria dvs. lucrare. De asemenea, voi arăta câteva trucuri și voi explica abordarea în detaliu. Desigur, am igienizat datele și am generat numere false pentru confidențialitate, dar formatul și conceptele care trebuie abordate rămân aceleași. Iată o hartă rutieră despre ceea ce vom face cu panda:

  1. Configurați mediul și încărcați datele
  2. Investigați datele
  3. Analizați diferitele file de date
  4. Standardizați coloanele existente și creați altele noi
  5. Curățați datele folosind funcțiile „apply” și „lambda”
  6. Remodelați datele de la larg la lung pivotând pe indici pe mai multe niveluri și stivuind
  7. Concatenează și salvează rezultatele finale înapoi în Excel