Articolul complet Organizarea datelor în foi de calcul

Articol

  • Articol complet
  • Cifre și date
  • Referințe
  • Citații
  • Valori
  • Licențierea
  • Reimprimări și permisiuni
  • PDF

ABSTRACT

Foi de calcul sunt instrumente software utilizate pe scară largă pentru introducerea, stocarea, analiza și vizualizarea datelor. Concentrându-ne pe aspectele de introducere și stocare a datelor, acest articol oferă recomandări practice pentru organizarea datelor din foaia de calcul pentru a reduce erorile și a ușura analizele ulterioare. Principiile de bază sunt: ​​fiți consecvenți, scrieți date precum AAAA-LL-ZZ, nu lăsați nici o celulă goală, puneți un singur lucru într-o celulă, organizați datele ca un singur dreptunghi (cu subiecții ca rânduri și variabile ca coloane și cu un singur rând de antet), creați un dicționar de date, nu includeți calcule în fișierele de date brute, nu utilizați culoarea fontului sau evidențierea ca date, alegeți nume bune pentru lucruri, faceți copii de rezervă, utilizați validarea datelor pentru a evita erorile de introducere a datelor, și salvați datele în fișiere text simplu.

datelor

1. Introducere

Foile de calcul, pentru toate dreptunghiurile lor banale, au fost subiect de neliniște și controversă de zeci de ani. Unii scriitori au admonestat că „programatorii reali nu folosesc foi de calcul” și că trebuie „să oprim acea foaie de calcul subversivă” (Casimir 1992; Chadwick 2003). Alții au sfătuit cercetătorii cum să folosească foi de calcul pentru a-și îmbunătăți productivitatea (Wagner și Keisler 2006). Pe fondul acestei dezbateri, foile de calcul au continuat să joace un rol semnificativ în fluxurile de lucru ale cercetătorilor și este clar că acestea sunt un instrument valoros pe care este puțin probabil ca cercetătorii să îl abandoneze complet.

Cu toate acestea, pericolele foilor de calcul sunt reale - atât de mult încât Grupul european de riscuri pentru foaia de calcul păstrează o arhivă publică de „povești de groază” din foaia de calcul (http://www.eusprig.org/horror-stories.htm). Mulți cercetători au examinat ratele de eroare în foile de calcul, iar Panko (2008) a raportat că în 13 audituri ale foilor de calcul din lumea reală, o medie de 88% conținea erori. Programele populare de foi de calcul fac, de asemenea, anumite tipuri de erori ușor de comis și dificil de corectat. Microsoft Excel convertește unele nume de gene în date și stochează datele diferit între sistemele de operare, ceea ce poate cauza probleme în analizele din aval (Zeeberg și colab. 2004; Woo 2014). Cercetătorii care folosesc foi de calcul ar trebui să fie conștienți de aceste erori comune și să proiecteze foi de calcul care să fie ordonate, consecvente și cât mai rezistente la greșeli.

Foile de calcul sunt adesea folosite ca instrument multifuncțional pentru introducerea, stocarea, analiza și vizualizarea datelor. Majoritatea programelor de foi de calcul permit utilizatorilor să efectueze toate aceste sarcini, totuși considerăm că foile de calcul sunt cele mai potrivite pentru introducerea și stocarea datelor și că analiza și vizualizarea ar trebui să aibă loc separat. Analiza și vizualizarea datelor într-un program separat, sau cel puțin într-o copie separată a fișierului de date, reduce riscul contaminării sau distrugerii datelor brute din foaia de calcul.

Murrell (2013) a contrastat datele care sunt formatate pentru ca oamenii să le poată vizualiza cu ochi cu datele formatate pentru un computer. El a oferit un exemplu extins de cod de computer pentru a extrage date dintr-un set de fișiere cu aranjamente complexe. Este important ca analiștii de date să poată lucra cu astfel de fișiere de date complexe. Dar dacă aranjarea inițială a fișierelor de date este planificată având în vedere computerul, procesul de analiză ulterioară este simplificat.

În acest articol, oferim recomandări practice pentru organizarea datelor din foi de calcul într-un mod pe care atât oamenii, cât și programele de computer pot să le citească. Urmând aceste sfaturi, cercetătorii vor crea foi de calcul mai puțin predispuse la erori, mai ușor de procesat de către computere și mai ușor de partajat cu colaboratorii și publicul. Foi de calcul care respectă recomandările noastre vor funcționa bine cu instrumentele ordonate și metodele reproductibile descrise în altă parte în această colecție și vor sta la baza unui flux analitic robust și reproductibil.