Cum să normalizați și să standardizați datele dvs. de învățare automată în Weka

Ultima actualizare la 11 decembrie 2019

Algoritmii de învățare automată fac presupuneri despre setul de date pe care îl modelați.

Adesea, datele brute sunt compuse din atribute cu scări diferite. De exemplu, un atribut poate fi în kilograme și altul poate fi un număr. Deși nu este necesar, puteți obține adesea o creștere a performanței prin alegerea cu atenție a metodelor de reechilibrare a datelor.

În această postare veți descoperi cum puteți redimensiona datele, astfel încât toate datele să aibă aceeași scară.

După ce citiți această postare, veți ști:

Cum să vă normalizați atributele numerice între intervalul 0 și 1.
Cum să vă standardizați atributele numerice pentru a avea o medie și o varianță a unității.
Când să alegeți normalizarea sau standardizarea.

Lansați proiectul cu noua mea carte Machine Learning Mastery With Weka, inclusiv tutoriale pas cu pas și clare capturi de ecran pentru toate exemplele.

Să începem.

Actualizare martie/2018: A fost adăugat un link alternativ pentru a descărca setul de date, deoarece originalul pare să fi fost eliminat.

Preziceți apariția diabetului

Setul de date utilizat pentru acest exemplu este setul de date pentru debutul diabetului indienilor Pima.

Este o problemă de clasificare în care fiecare caz reprezintă detalii medicale pentru un pacient și sarcina este de a prezice dacă pacientul va avea un debut al diabetului în următorii cinci ani.

Acesta este un set de date bun pentru a practica scalarea, deoarece cele 8 variabile de intrare au toate scale variabile, cum ar fi numărul de câte ori pacientul a fost însărcinată (preg) și calculul indicelui de masă corporală al pacientului (masa).

Descărcați setul de date și plasați-l în directorul curent de lucru.

De asemenea, puteți accesa acest set de date din instalarea Weka, în directorul data/din fișierul numit diabetes.arff.

Weka Load Diabetes Dataset

Despre filtrele de date din Weka

Weka oferă filtre pentru transformarea setului de date. Cel mai bun mod de a vedea ce filtre sunt acceptate și de a vă juca cu ele în setul dvs. de date este să folosiți Weka Explorer.

Panoul „Filtru” vă permite să alegeți un filtru.

Panoul de filtrare Weka pentru alegerea filtrelor de date

Filtrele sunt împărțite în două tipuri:

Filtre supravegheate: Acest lucru poate fi aplicat, dar necesită controlul utilizatorului într-un fel. Cum ar fi reechilibrarea instanțelor pentru o clasă.
Filtre nesupravegheate: Acest lucru poate fi aplicat într-o manieră nedorită. De exemplu, redimensionați toate valorile în intervalul 0-1.

Personal, cred că distincția dintre aceste două tipuri de filtre este puțin arbitrară și confuză. Cu toate acestea, așa sunt așezate.

În cadrul acestor două grupuri, filtrele sunt împărțite în continuare în filtre pentru atribute și instanțe:

Filtre de atribute: Aplicați o operație pe atribute sau un atribut la un moment dat.
Filtre de instanță: Aplicați o operație pe instanță sau câte o instanță la un moment dat.

Această distincție are mult mai mult sens.

După ce ați selectat un filtru, numele acestuia va apărea în caseta de lângă butonul „Alegeți”.

Puteți configura un filtru făcând clic pe numele acestuia, care va deschide fereastra de configurare. Puteți modifica parametrii filtrului și chiar puteți salva sau încărca configurația filtrului în sine. Acest lucru este excelent pentru reproductibilitate.