Învățare automată - Normalizați datele înainte sau după divizarea antrenamentului și testarea datelor Stack Overflow

Vreau să-mi separ datele în tren și set de teste, ar trebui să aplic normalizarea peste date înainte sau după împărțire? Are vreo diferență în timp ce construiește un model predictiv?

automată

3 Răspunsuri 3

Mai întâi trebuie să împărțiți datele în set de antrenament și test (setul de validare ar putea fi de asemenea util).

Nu uitați că testarea punctelor de date reprezintă date din lumea reală. Normalizarea caracteristicilor (sau standardizarea datelor) a variabilelor explicative (sau predictive) este o tehnică utilizată pentru centrarea și normalizarea datelor prin scăderea mediei și împărțirea la varianță. Dacă luați media și varianța întregului set de date, veți introduce informații viitoare în variabilele explicative ale antrenamentului (adică media și varianța).