Utilizarea rețelelor sociale, interogări de căutare și date demografice pentru a evalua prevalența obezității în

Subiecte

Abstract

fundal

Rata obezității atât la copii, cât și la adulți în Statele Unite a crescut semnificativ începând cu anii 1980 (Dwyer-Lindgren și colab., 2013; Fryar și colab., 2016; Segal și colab., 2017). În 2017, proiectul State of Obesity a estimat că prevalența obezității la adulți în SUA statele au variat de la 22,3 la 37,7% (Segal și colab., 2017). Această creștere a prevalenței obezității se datorează unei interacțiuni complexe a factorilor biologici, structurali și individuali (Hill și Peters, 1998; Nelson și colab., 2006; Papas și colab., 2007; Ogden și colab., 2010). Factori precum siguranța publică, statutul socio-economic și mediul construit în cartier pot avea impact asupra accesului la facilitățile recreative și la alimentele proaspete și sănătoase (Freedman și colab., 2002; Giles-Corti și colab., 2003; Hill și colab., 2003; Ellaway și colab. 2005; Gordon-Larsen și colab., 2006; Lopez-Zetina și colab., 2006; Mobley și colab., 2006; Bennett și colab., 2007; Papas și colab., 2007; Casagrande și colab., 2009; Maharana și Nsoesie, 2018). Mediul social al unui individ poate influența și comportamentele de sănătate (cum ar fi dieta slabă și inactivitatea fizică) care sunt considerați factori de risc pentru obezitate (Christakis și Fowler, 2007; McFerran și colab., 2009; Yakusheva și colab., 2011).

În acest studiu, ne-am propus să evaluăm asocierea dintre prevalența obezității estimată de Centrele pentru Controlul și Prevenirea Bolilor (CDC) și diferite variabile de hrană și exercițiu din social media (de exemplu, Twitter) și interogări de căutare (de exemplu, Google Search Trends) pentru masculii și femelele separat. De asemenea, am demonstrat că integrarea datelor din sursele de internet menționate anterior cu datele demografice și variabilele de mediu construit ar putea fi utilă pentru estimarea prevalenței obezității în S.U.A. județe după sex.

Metode

Estimări de obezitate la nivel de județ, specifice sexului

Estimările obezității ajustate în funcție de vârstă pentru SUA județele au fost descărcate din CDC. Aceste estimări au fost obținute prin aplicarea unei tehnici de estimare a suprafeței mici la datele din sistemul de supraveghere și factorii de comportament (BRFSS) - un sondaj telefonic privind comportamentele de sănătate legate de boli cronice, leziuni și boli infecțioase care pot fi prevenite pentru adultul neinstituționalizat din S.U.A. populație (Malec și colab., 1997; Centers for Disease Control and Prevention, 2018a).

Cele mai recente estimări ale obezității la nivel de județ în funcție de sex din CDC s-au bazat pe sondajul BRFSS din 2013. Pentru a alinia datele CDC cu datele de pe Twitter care au fost colectate între aprilie 2015 și martie 2016, am folosit modele liniare autoregresive pentru a prognoza prevalența obezității în 2015. Modelul nostru a folosit estimări din anii precedenți pentru a estima prevalența obezității în 2015. Modelul R 2 (adică, coeficientul de determinare) a fost de 82,73% și, respectiv, de 82,73% pentru bărbați și femei. În timp ce proiectul State of Obesity a raportat o creștere a prevalenței obezității pentru toate, cu excepția celor șapte state, între 2013 și 2016, această creștere a fost semnificativă doar pentru trei state: Alabama, Michigan și Nebraska (vezi SI Fig. 1) (Segal și colab., 2017 ). În analiza noastră am folosit atât estimările obezității din 2013, cât și proiecțiile din 2015.

Date despre rețelele sociale

Prelucrarea datelor din rețelele sociale

Datele au fost curățate pentru a exclude duplicatele, valorile aberante (adică utilizatorii ale căror tweeturi au reprezentat mai mult de 1% din tweets), postările de locuri de muncă și tweets-urile care se încadrează în afara Statelor Unite adiacente. Clasificatorul de text pentru entropia maximă din Machine Learning for Language Toolkit (MALLET) (McCallum, 2002) a fost utilizat pentru a clasifica sentimentul tweet între zero și unu, unul indicând sentimentul pozitiv cel mai puternic. Această clasificare a fost realizată cu un proiect mai larg care vizează evaluarea fericirii în S.U.A. județelor și evaluarea asocierii sale cu diverse rezultate ale sănătății, inclusiv mortalitatea prematură, diabetul și obezitatea. Clasificatorul a fost instruit în mod riguros folosind seturi de date existente și disponibile public din Sentiment140 (Sentiment140, 2009), Sanders Analytics (Sanders Analytics, 2011) și Kaggle (Kaggle. Sentiment classification, 2011). În timp ce MALLET nu este singurul set de instrumente de sentiment disponibil, am constatat că a depășit o abordare de tip „bag-of-words”, Sentiment140, și clasificatoare standard de învățare automată supravegheate. Comparativ cu 500 de tweets etichetate manual, acuratețea scorurilor noastre de opinie a fost de 77%.