Triajul asistat de analiză a cererilor de despăgubire a lucrătorilor - Triatul asistat de analiză al lucrătorilor
Postat la 16 septembrie 2016
Analiza datelor, schemele de accidentare, triaj, despăgubirea lucrătorilor
Directorul științei datelor Inna Kolyshkina și Scheme Actuary la ReturnToWorkSA Ivan Lebedev combină forțele pentru a explica un proiect întreprins pentru a explora utilitatea capacității avansate de analiză a datelor pentru ReturnToWorkSA.
În 2014, ReturnToWorkSA a întreprins un proiect pentru a explora utilitatea potențială a capacității avansate de analiză a datelor pentru afacerea sa.
Scopul a fost de a prezice probabilitatea ca cererile să rămână în sprijinul venitului timp de un an sau mai mult de la data depunerii (în continuare, acest eveniment va fi denumit „pe termen lung”) folosind informațiile disponibile la treisprezece săptămâni de la depunere.
O altă cerință a fost ca modelul de predicție să fie ușor de interpretat de către companie.
În medie, la 13 săptămâni de la depunerea cererii, mai mult de 80% dintre reclamanți vor fi revenit la muncă. Celelalte rămase trebuie să fi avut anumite bariere care le-au împiedicat să-și revină. Aceste bariere sunt în mod obișnuit legate de severitatea stării medicale de bază, de factori psiho-sociali, cum ar fi relația cu angajatorul/locul de muncă, reziliența generală a lucrătorului etc.
La 13 săptămâni, cererile post-depunere stabilesc un istoric care include diagnostic și tratament medical, interacțiuni cu medicul de familie/specialiști, plăți de drepturi etc. Deși este posibil ca fiecare element al acestor date să nu fie deosebit de predictiv, cazul de afaceri a stabilit să verifice dacă analiza avansată a datelor ar permite identificarea tiparelor și combinațiilor care prezic în mod fiabil probabilitatea ridicată sau scăzută a unei revendicări pe termen lung.
Provocări
Evenimentul unei creanțe pe termen lung este influențat de mulți factori. Variabilitatea puternică a duratei cererii pentru un anumit tip de leziune și vârstă este ilustrată în Figura 1.

Figura 1: Analiza bidirecțională a duratei cererii în funcție de vârstă și natura prejudiciului. Curbă albastră arată modelul aditiv generalizat (GAM) încorporat în date, iar regiunea gri închis din jurul ei prezintă banda corespunzătoare a intervalului de încredere. Un grad ridicat de variabilitate pentru lucrătorii răniți de aceeași vârstă și tip de accidentare este clar vizibil.
Caracteristicile care complică în mod semnificativ modelarea rezultatelor cererii sunt raritatea datelor, multicoliniaritatea și faptul că majoritatea predictorilor potențial importanți (cum ar fi codurile TOOCS pentru natura leziunii, localizarea corpului etc.) au un număr mare de categorii.
Înfruntarea provocărilor
Sistemul TOOCS are un decalaj mare între cel mai înalt nivel (natura grupului de vătămare) și cel mai scăzut nivel (natura individuală a vătămării). Ca rezultat, unele dintre categoriile de nivel înalt sunt prea largi pentru a fi utile, în timp ce unele dintre categoriile de nivel scăzut au un suport prea mic (numărul de revendicări din setul de date). Pentru a aborda această situație, categoriile de nivel scăzut cu sprijin mare au fost ridicate în ierarhie, categoriile de nivel înalt cu sprijin mic au fost reduse și categoriile de nivel scăzut cu sprijin mic au fost amalgamate cu altele similare.
Deoarece natura leziunii și localizarea corpului se așteptau să fie printre cei mai importanți predictori ai duratei revendicării, un pas important a fost combinarea acestora într-o singură variabilă pentru a se concentra doar pe combinațiile care au avut loc în practică.
În cele din urmă, am aplicat analiza de corelație pentru a identifica grupurile de variabile care erau foarte corelate între ele; variabilele care s-au dovedit a conține informații redundante ar putea fi eliminate din analiză fără a sacrifica acuratețea sau validitatea predicției.