Vizualizare - Curățarea datelor și transformarea datelor înainte de EDA Data Science Stack Exchange

Care este ordinea cea mai comună de curățare a datelor, transformarea datelor și analiza datelor exploratorii?

curățarea

Pentru mine mi se pare cel mai logic să fac curățarea datelor, apoi EDA și în cele din urmă transformarea datelor (codarea variabilelor categorice și scalarea caracteristicilor).

Efectuarea transformării datelor înainte de EDA, pare să facă EDA nu atât de util, așa cum nu poți ex. căutați lucruri precum:

Pasagerii din intervalul de vârstă 0-18 au șanse mai mari de supraviețuire

(dacă scalarea caracteristicilor a fost aplicată funcției de vârstă).

Dar, din nou, făcând transformarea datelor după EDA, pierdeți și șansa de a codifica variabilele categorice și astfel vizualizați corelațiile celor cu variabila țintă.

Care este ordinea proceselor menționate? Și există chiar o comandă?

2 Răspunsuri 2

Deși nu este foarte util, răspunsul este probabil „depinde”.