Pentru a gestiona datele mari, reduceți-le MIT News Massachusetts Institute of Technology

Contact presa:

Descărcare media

* Termeni de utilizare:

Imaginile pentru descărcare de pe site-ul web al biroului de știri MIT sunt puse la dispoziția entităților necomerciale, a presei și a publicului larg sub o licență Creative Commons Attribution Non-Commercial No Derivatives. Nu puteți modifica imaginile furnizate, altele decât să le decupați la dimensiune. La reproducerea imaginilor trebuie utilizată o linie de credit; dacă una nu este furnizată mai jos, creditați imaginile la „MIT”.

Imaginea anterioară Imaginea următoare

Deoarece oricine a folosit vreodată o foaie de calcul poate atesta, este adesea convenabil să organizați datele în tabele. Dar în epoca datelor mari, acele tabele pot fi enorme, cu milioane sau chiar sute de milioane de rânduri.

O modalitate de a face analiza big-data practică din punct de vedere al calculului este de a reduce dimensiunea tabelelor de date - sau a matricilor, de a folosi termenul matematic - lăsând în afară o grămadă de rânduri. Trucul este că rândurile rămase trebuie să fie într-un anumit sens reprezentative pentru cele care au fost omise, pentru ca calculele efectuate pe ele să producă aproximativ rezultatele potrivite.

La Simpozionul ACM pe teoria calculelor din iunie, cercetătorii MIT vor prezenta un nou algoritm care găsește cea mai mică aproximare posibilă a matricei originale care garantează calcule fiabile. Pentru o clasă de probleme importante în inginerie și învățare automată, aceasta este o îmbunătățire semnificativă față de tehnicile anterioare. Și pentru toate clasele de probleme, algoritmul găsește aproximarea cât mai repede posibil.

Pentru a determina cât de bine reprezintă un rând dat al matricei condensate un rând al matricei originale, algoritmul trebuie să măsoare „distanța” dintre ele. Dar există diferite moduri de a defini „distanța”.

Un mod comun este așa-numita „distanță euclidiană”. În distanța euclidiană, diferențele dintre intrările la pozițiile corespunzătoare din cele două rânduri sunt pătrate și adăugate, iar distanța dintre rânduri este rădăcina pătrată a sumei rezultate. Intuiția este cea a teoremei pitagoreice: rădăcina pătrată a sumei pătratelor lungimilor picioarelor unui triunghi dreptunghic dă lungimea hipotenuzei.

O altă măsură a distanței este mai puțin frecventă, dar deosebit de utilă în rezolvarea învățării automate și a altor probleme de optimizare. Se numește „distanța Manhattan” și este pur și simplu suma diferențelor absolute dintre intrările corespunzătoare din cele două rânduri.

În interiorul normei

De fapt, atât distanța Manhattan, cât și distanța euclidiană sunt exemple de ceea ce statisticiștii numesc „norme”. Distanța Manhattan, sau 1-normă, este prima rădăcină a sumei diferențelor ridicate la prima putere, iar distanța euclidiană, sau 2-normă, este rădăcina pătrată a sumei diferențelor ridicate la a doua putere. Norma 3 este rădăcina cubică a sumei diferențelor ridicate la a treia putere și așa mai departe până la infinit.