Un set de instrumente pentru un cercetător de date pentru a codifica variabilele categorice în numerice de către Dr.
Dr. Dataman
17 decembrie 2019 · 11 min de citire
Codificarea variabilelor categorice în variabile numerice face parte din munca de zi cu zi a unui om de știință. Am vrut să notez câteva sfaturi pentru cititorii care trebuie să codeze variabile categorice. Tehnicile din acest articol sunt tehnicile utilizate frecvent în munca mea profesională. Sper că acest articol vă va ajuta pentru orice transformări suplimentare pentru a vă îmbunătăți performanța modelului. Mai jos sunt tehnicile:

(A) O codare la cald
(B) Greutatea probelor
(C) Codificare țintă
(D) Codificare Leave-One-Out
(E) Codificare ordinală
(F) Codare Hashing:
Deoarece este posibil să produceți exponate de vizualizare a datelor pentru noile variabile, merită să aruncați o privire asupra seriei mele de articole despre vizualizarea datelor, inclusiv „Pandas-Bokeh pentru a face uimitoare parcele interactive interactive”, „Folosiți Seaborn pentru a face parcele frumoase” Ușor ”,„ Ploturi puternice cu Plotly ”și„ Creați Geomap-uri frumoase cu Plotly ”. Scopul meu în articolele de vizualizare a datelor este să vă ajut să produceți expoziții și informații despre vizualizarea datelor cu ușurință și competență. Dacă doriți să adoptați toate aceste coduri de vizualizare a datelor sau să vă îmbunătățiți munca, aruncați o privire asupra lor. Am scris articole despre o varietate de subiecte de știință a datelor. Pentru ușurința utilizării, puteți marca semnul postului meu rezumat „Căi de învățare Dataman - Construiți-vă abilitățile, conduceți-vă cariera” care listează linkurile către toate articolele.
(A) CODARE CU UN FIER
Codificarea fictivă și codificarea one-hot sunt același lucru; primul termen provine din statistici și cel din urmă din inginerie electrică (electronică). Permiteți-mi să explic diferența subtilă. Deoarece un model de regresie poate lua doar variabile numerice, statisticile au rezolvat mult timp problema prin conversia unei variabile categorice de n valori în n-1 variabile inexact. De ce n-1? Aceasta pentru a evita problema multicoliniarității (explicată mai târziu). Codificarea cu o singură temperatură convertește o variabilă categorică de n valori în n variabilă fictivă. Toate variabilele create au valoarea 1 și 0. Cu toate acestea, software-ul de astăzi vă permite să creați toate variabilele fictive și vă permite să decideți ce variabilă fictivă să renunțați pentru a preveni problema multicoliniarității.
Există multe module Python care se ocupă de codificarea cu o singură pornire. Aici vă prezint get_dummies de Pandas și OneHotEncoder de categorie_encodere. Puteți instala modulul encode_category prin pip install category_encoders. Pentru a vă prezenta un caz real, folosesc setul de date Home Credit Default Risk de la Kaggle pentru a demonstra metodele de codificare. Există 18 categorii plus lipsa (NaN) pentru variabila „ocupație_tip” așa cum se arată mai jos.
Variabilele fictive sunt create folosind pd.get_dummies (df ('OCCPATION_TYPE'], dummy_na = True). Apoi adaug din nou variabilele fictive. Rezultatele devin: