Alteryx Data Science Design Patterns Predictive

Modele de proiectare a științei datelor Alteryx: Forma modelului predictiv, partea a doua

În prima noastră postare am enumerat componentele într-un model predictiv și le-am analizat pe primele patru. Să continuăm discuția examinând a cincea componentă: forma funcțională.

Procesul de generare a datelor

Un model predictiv își propune să prezică comportamentul unui proces din lumea reală. Oamenii de știință de date denumesc acest proces procesul de generare a datelor, deoarece generează datele de intrare ale unui model.

Un proces generator poate fi fizic. De exemplu, procesul care uzează treptat o piesă pe o mașină industrială ar putea genera vibrații, temperatură și valori sonore care prezic când piesa va eșua.

Un proces generator poate fi biologic. De exemplu, s-ar putea măsura modificările neuronale la șoarecii experimentali de laborator supuși regimurilor de exerciții și diete, pentru a vedea cum activitatea fizică și restricția calorică afectează sănătatea neuronală.

În cele din urmă, un proces generator poate fi social. De exemplu, clienții unei companii ar putea decide periodic dacă vor continua să cumpere servicii de la companie sau, în schimb, să schimbe furnizorii de servicii (churn).

Observați că unele dintre variabilele din exemplele de mai sus sunt efecte naturale ale procesului de generare. Astfel de variabile sunt endogene. Variabilele pe care oamenii le manipulează sunt numite decizii, tratament sau variabile independente, în funcție de context. (Iată o listă mai lungă de tipuri de variabile, dacă doriți să aflați mai multe.)

Exemplele de mai sus ale celor trei tipuri de procese generatoare sunt simpliste. Într-adevăr, majoritatea proceselor generatoare pe care probabil le veți modela vor fi amestecuri de aceste trei tipuri. (De fapt, ori de câte ori sunt prezente variabile de decizie, aveți un anumit grad de influență socială la locul de muncă în procesul dvs. de generare.) Știind acest lucru și cunoașterea tipurilor de variabile, vă va ajuta să vă gândiți critic la ce variabile ar putea prezice comportamentul unui anumit proces de generare. . De exemplu, dacă modelați eficacitatea unui medicament, poate fi necesar să includeți între variabilele de intrare măsuri biologice ale gradului de absorbție a medicamentului de către organism și, de asemenea, măsuri comportamentale ale gradului de respectare a prescripțiilor medicilor de către subiecții experimentali.

Previzibilitate

Ipoteza noastră de bază despre un proces generator este că comportamentul său este într-o oarecare măsură previzibil, cel puțin atunci când am ales un set bun de transformări și caracteristici ale modelului. Să ne oprim o clipă pentru a ne gândi la ce înseamnă această presupunere. În primul rând, rețineți că, deși presupunerea nu se menține întotdeauna, este surprinzător de greu să găsiți un bun exemplu de proces generator complet imprevizibil (aleatoriu). Aruncarea cu monede este un exemplu foarte comun al unui proces presupus aleatoriu. Dar studiile empirice privind aruncarea fizică a monedelor relevă un grad mic de predictibilitate. De asemenea, oamenii spun adesea că prețul unei acțiuni este complet imprevizibil, deoarece este (aproximativ) o mers aleatoriu, ceea ce înseamnă că prețul este la fel de probabil să crească sau să scadă cu o anumită sumă, de fiecare dată când prețul se schimbă. Dar, ca o chestiune practică, prețurile acțiunilor se încadrează într-o gamă limitată și, în acest interval, distribuția prețului viitor al unei acțiuni, având în vedere prețul actual, este aproximativ în formă de clopot - nu plat. O acțiune care are în prezent un preț de 100 USD este mult mai probabil să treacă la 101 USD decât la 1.001 USD la următoarea schimbare a prețului acțiunii. În acest sens, 101 USD reprezintă o predicție mai bună a prețului acțiunii decât 1.001 USD, având în vedere prețul actual. Prețul nu este complet aleatoriu.

Poate cel mai bun exemplu pe care îl putem construi dintr-un proces aleatoriu este un bun generator de numere aleatorii. Unii generatori de numere aleatorii prelevează o măsurare dintr-un proces fizic (adesea sub-atomic). Alții sunt algoritmi software care generează secvențe de numere având aceeași distribuție statistică pe care ar avea-o secvențele de numere aleatoare adevărate, chiar dacă algoritmul ne spune ce număr urmează, având în vedere ce număr a venit ultima. Astfel de algoritmi sunt pseudo-aleatori. Este important să ne gândim, deoarece, în timp ce distribuția rezultatelor lor satisface multe teste statistice ale aleatoriei, algoritmii înșiși sunt complet previzibili, deoarece procesul lor de generare (un program de computer care rulează pe un computer) este determinist. Odată ce cunoaștem intrările, putem deduce rezultatele din algoritm cu certitudine. În schimb, pentru unele tipuri de procese fizice, acest tip de cunoaștere nu este posibil, chiar și în principiu.

Forma funcțională

În știința datelor de zi cu zi, presupunem că procesul nostru de generare nu este cu adevărat aleatoriu. Mai degrabă, există o relație deterministă între un set de variabile de intrare relevante și variabila rezultat (dependentă) pe care vrem să o prezicem. În matematică numim o astfel de relație o funcție, deoarece mapează fiecare set de valori variabile de intrare la o singură valoare variabilă rezultat.

Există trei moduri de a specifica o funcție:

Cel mai adesea specificăm o formă funcțională ca o expresie matematică a unui set de argumente de intrare (caracteristici ale modelului): f (x 1, x 2) = x 1 2 + 2x 1 x 2 + log (x 2), de exemplu.
De asemenea, putem specifica o funcție ca o procedură care generează o singură valoare pentru orice combinație dată de valori de intrare.
Sau putem specifica o funcție ca un tabel listând valoarea de ieșire corespunzătoare fiecărui set posibil de valori de intrare.

Fiecare dintre acestea este important în știința datelor, așa cum vom vedea mai jos.

Putem idealiza procesul de construire a unui model predictiv ca descoperind două lucruri:

care variabile de intrare determină variabila de rezultat
forma funcțională a relației deterministe .

Primele patru părți ale modelului modelului predictiv se referă la prima dintre acestea; restul, al doilea.

În practică, nu ne așteptăm să descoperim adevărata formă funcțională a unui proces de generare. Mai degrabă, ne străduim doar să o aproximăm (estimăm). Astfel celebrul aforism, „Toate modelele sunt greșite, dar unele modele sunt utile”. Multe dintre modelele de proiectare pe care le vom studia în această serie de bloguri surprind metode importante pentru construirea unor modele utile, deși aproximative.

Exemple

Să luăm în considerare câteva exemple de forme funcționale și aproximări utile la acestea. Aceste exemple ilustrează faptul că un model poate aproxima forma funcțională a unui proces de generare, mai degrabă decât să o specifice perfect sau chiar în mod explicit, din oricare dintre mai multe motive.

Exemplul 2.1: set de caracteristici aproximativ

O parte din specificarea unei funcții este specificarea argumentelor sale (intrări). Dacă un model folosește doar unele dintre intrările cerute de forma funcțională adevărată a procesului de generare, modelul poate aproxima doar forma respectivă. Algoritmii de selecție variabilă și indicatorii cu importanță variabilă ne ajută să identificăm intrări utile. Pentru a ilustra, amintiți-ne setul de date medicale electronice noționale (EMR) din postarea anterioară și graficele cu importanță variabilă pădure aleatorie pentru prezicerea procentului de grăsime corporală (PBF) din celelalte variabile din EMR. Să reproducem acest complot aici:

Figura 1: Importanță variabilă pentru prezicerea PBF

Ambele comploturi sunt de acord că vârsta și indicele de masă corporală (IMC) sunt predictori importanți (caracteristici ale modelului). Comploturile nu sunt de acord cu importanța genului și a greutății. Dacă preferăm măsurarea purității nodului de importanță variabilă (cea afișată în prezent de instrumentul Alteryx-forest-forest), am putea alege ca set de caracteristici. Să presupunem că acum alegem regresia liniară obișnuită a celor mai mici pătrate (OLS) ca algoritm de inducție. Fluxul de date Alteryx ar fi ca în figurile 2 și 3: