Regresie - Probleme cu codificarea one-hot vs.

Sunt conștient de faptul că variabilele categorice cu niveluri k ar trebui să fie codificate cu variabile k-1 în codificare fictivă (în mod similar pentru variabilele categorice cu valori multiple). Mă întrebam cât de multă problemă are o codificare one-hot (adică folosind k variabile în loc) față de codificarea fictivă pentru diferite metode de regresie, în principal regresie liniară, regresie liniară penalizată (Lasso, Ridge, ElasticNet), bazată pe copaci, creșterea gradientului mașini).

regresie

Știu că în regresia liniară apar probleme de multi-colinearitate (chiar dacă în practică am regresat liniar folosind OHE fără probleme).

Cu toate acestea, este necesară utilizarea codificării fictive în toate și cât de greșite ar fi rezultatele dacă se folosește o codificare cu un singur hot?

Mă axez pe predicție în modele de regresie cu variabile categorice multiple (cu cardinalitate ridicată), așa că nu mă interesează intervalele de încredere.