Exploatarea datelor - De ce o codificare la cald îmbunătățește performanțele de învățare automată Stack Overflow

Am observat că atunci când o codificare One Hot este utilizată pe un anumit set de date (o matrice) și utilizată ca date de antrenament pentru algoritmi de învățare, aceasta oferă rezultate semnificativ mai bune în ceea ce privește acuratețea predicției, comparativ cu utilizarea matricei originale ca date de antrenament. Cum se întâmplă această creștere a performanței?

3 Răspunsuri 3

Mulți algoritmi de învățare fie învață o singură greutate pe caracteristică, fie folosesc distanțe între probe. Primul este cazul modelelor liniare, cum ar fi regresia logistică, care sunt ușor de explicat.

Să presupunem că aveți un set de date care are o singură caracteristică categorică „naționalitate”, cu valori „UK”, „French” și „US”. Să presupunem, fără pierderea generalității, că acestea sunt codificate ca 0, 1 și 2. Apoi aveți o pondere w pentru această caracteristică într-un clasificator liniar, care va lua un fel de decizie pe baza constrângerii w × x + b> 0, sau echivalent w × x