Date pentru cercetări biologice, medicale și de sănătate Note pentru 432
2.1 BRFSS și SMART
Centrele pentru controlul bolilor analizează datele sondajului Sistemului de supraveghere a factorului de risc comportamental (BRFSS) pentru anumite zone statistice metropolitane și micropolitane (MMSA) într-un program numit Tendințe de risc ale zonei metropolitane/micropolitice selectate ale BRFSS (SMART BRFSS).
În această lucrare, ne vom concentra pe datele din SMART din 2016 și, în special, pe datele din Cleveland-Elyria, OH, Metropolitan Statistical Area. Scopul acestui sondaj este de a furniza informații de sănătate localizate care pot ajuta practicienii din domeniul sănătății publice să identifice problemele locale de sănătate emergente, să planifice și să evalueze răspunsurile locale și să aloce eficient resursele nevoilor specifice.
2.1.1 Resurse cheie
- datele complete sunt disponibile sub forma datelor SMART BRFSS MMSA 2016, găsite într-un fișier SAS Transport Format. Datele au fost publicate în august 2017.
- PDF-ul Variable Layout MMSA care listează pur și simplu variabilele incluse în fișierul de date
- PDF-ul Variabilelor calculate care descrie factorii de risc în funcție de numele variabilelor de date - există, de asemenea, o matrice sumară online a acestor variabile calculate.
- lungul sondaj de întrebări din 2016 PDF care listează toate întrebările puse ca parte a BRFSS în 2016
- enormul Codebook pentru sondajul PDF BRFSS 2016 care identifică variabilele după nume pentru noi.
Mai târziu în acest termen, vom folosi toate resursele respective pentru a ajuta la construirea unui set de date mai complet decât vom studia astăzi. Voi demonstra, de asemenea, modul în care am construit setul de date smartcle1 pe care îl vom folosi în acest capitol.
2.2 Datele smartcle1: carte de bucate
Fișierul de date smartcle1.csv disponibil pe pagina de date și coduri a site-ului nostru web descrie informații despre 11 variabile pentru 1036 de respondenți la BRFSS 2016, care locuiesc în Cleveland-Elyria, OH, zona statistică metropolitană. Variabilele din fișierul smartcle1.csv sunt enumerate mai jos, împreună cu (în unele cazuri) articolele BRFSS care generează aceste răspunsuri.
2.3 smartcle2: Omiterea observațiilor lipsă: analize de caz complete
În scopul adaptării primelor noastre modele, vom elimina problema lipsă și vom analiza doar cazurile complete din datele noastre smartcle1. Vom discuta despre metodele de imputare a datelor lipsă mai târziu în aceste note.
Pentru a inspecta lipsa datelor noastre, am putea lua în considerare utilizarea funcției skim din pachetul skimr. Vom exclude codul de identificare al respondentului (SEQNO) din acest rezumat ca neinteresant.
Acum, vom crea o nouă versiune numită smartcle2 care conține fiecare variabilă, cu excepția sărăciei și care include toți respondenții cu date complete despre variabile (altele decât sărăcia). Vom stoca aceste observații cu date complete în smartble2 tibble.
Rețineți că există doar 896 de respondenți cu complet date despre cele 10 variabile (excluzând slăbiciunea) din smartble2 tibble, în comparație cu datele noastre originale smartcle1 care descriau 1036 respondenți și 11 variabile, dar cu o mulțime de date lipsă.
2.4 Rezumarea numerelor de date smartcle2
2.4.1 Noua jucărie: funcția skim
2.4.2 Rezumatul obișnuit pentru un cadru de date
Desigur, putem folosi rezumatul obișnuit pentru a obține informații de bază despre date.
2.4.3 Funcția de descriere în Hmisc
Sau putem folosi funcția de descriere din pachetul Hmisc.
2.5 Numărarea ca analiză exploratorie a datelor
Numărarea lucrurilor poate fi uimitor de utilă.
2.5.1 Câți respondenți s-au exercitat în ultimele 30 de zile? A variat acest lucru în funcție de sex?
deci știm acum că 42,3% dintre subiecții din datele noastre au fost femei care au exercitat. Să presupunem că, în schimb, dorim să găsim procentul de exercițieni în cadrul fiecărui sex ...
și acum știm că 82,8% dintre bărbați au exercitat cel puțin o dată în ultimele 30 de zile, comparativ cu 72,3% dintre femei.
2.5.2 Care este distribuția somnurilor ?
Putem număra variabile cantitative cu seturi discrete de valori posibile, cum ar fi sleephrs, care este capturat ca un întreg (care trebuie să se încadreze între 0 și 24.)
Desigur, un rezumat natural al unei variabile cantitative ca aceasta ar fi grafic.
