Analiza regresiei

Analiza de regresie este o tehnică utilizată pe scară largă, care este utilă pentru multe aplicații. Introducem tehnica aici și extindem utilizările sale în modulele ulterioare.

Regresie liniară simplă

Regresia liniară simplă este o tehnică adecvată pentru a înțelege asocierea dintre o variabilă independentă (sau predictivă) și o variabilă continuă dependentă (sau rezultată). De exemplu, să presupunem că dorim să evaluăm asocierea dintre colesterolul total (în miligrame pe decilitru, mg/dL) și indicele de masă corporală (IMC, măsurat ca raportul dintre greutatea în kilograme și înălțimea în metri 2) în care colesterolul total este variabilă dependentă, iar IMC este variabila independentă. În analiza de regresie, variabila dependentă este notată Y și variabila independentă este notată X. Deci, în acest caz, Y = colesterol total și X = IMC.

Atunci când există o singură variabilă dependentă continuă și o singură variabilă independentă, analiza se numește o analiză de regresie liniară simplă. Această analiză presupune că există o asociere liniară între cele două variabile. (Dacă se presupune o altă relație, cum ar fi o relație curbiliniară sau exponențială, se efectuează analize de regresie alternative.)

Figura de mai jos este o diagramă scatter care ilustrează relația dintre IMC și colesterolul total. Fiecare punct reprezintă perechea observată (x, y), în acest caz, IMC și colesterolul total corespunzător măsurat la fiecare participant. Rețineți că variabila independentă (IMC) este pe axa orizontală și variabila dependentă (colesterolul seric total) pe axa verticală.

IMC și colesterol total

variabila independentă

Graficul arată că există o asociere pozitivă sau directă între IMC și colesterolul total; participanții cu IMC mai mic sunt mai predispuși să aibă niveluri mai scăzute de colesterol total și participanții cu IMC mai mari să aibă niveluri mai ridicate de colesterol total. În contrast, să presupunem că examinăm asocierea dintre IMC și colesterol HDL.

În contrast, graficul de mai jos prezintă relația dintre IMC și HDL colesterol în același eșantion de n = 20 de participanți.

IMC și HDL colesterol

Acest grafic arată o asociere negativă sau inversă între IMC și colesterol HDL, adică cei cu IMC mai mic au un nivel mai ridicat de colesterol HDL, iar cei cu IMC mai mare au un nivel mai scăzut de colesterol HDL.

Pentru oricare dintre aceste relații am putea folosi o analiză de regresie liniară simplă pentru a estima ecuația liniei care descrie cel mai bine asocierea dintre variabila independentă și variabila dependentă. Ecuația de regresie liniară simplă este următoarea:

Unde Da este valoarea prezisă sau așteptată a rezultatului, X este predictorul, b0 este interceptarea Y estimată și b1 este panta estimată. Intercepția Y și panta sunt estimate din datele eșantionului și sunt valorile care minimizează suma diferențelor pătrate dintre valorile observate și cele prezise ale rezultatului, adică estimările reduc:

Aceste diferențe între valorile observate și prezise ale rezultatului sunt numite reziduuri . Estimările interceptării Y și ale pantei minimizează suma reziduurilor pătrate și se numesc estimări ale celor mai mici pătrate . 1