Clasificarea NLP Recenzii pozitive și negative la restaurant (modelul Bag of Words) de Taras Rumezhak
Bună ziua, oamenii de știință de date! Astăzi vom construi un model de procesare a limbajului natural pentru a prezice dacă recenzia restaurantului este pozitivă sau negativă.

Este o implementare foarte generală, astfel încât să o puteți utiliza cu ușurință cu propriile seturi de date și probleme de afaceri. Să începem!
Ca întotdeauna, primul pas este să importați bibliotecile necesare:
Există biblioteci standard pentru proiecte de învățare automată, deci nu este nevoie să le explicați. Alte biblioteci vor fi explicate mai târziu.
Acum trebuie să aruncăm o privire asupra setului nostru de date.
Este prezentat în format de fișier tsv. Este un format de valori separate prin tab, care este foarte asemănător cu formatul CSV (valori separate prin virgulă). Acest format este considerat a fi mai bun decât csv pentru NLP deoarece virgulele sunt foarte susceptibile de a face parte dintr-o propoziție, iar fișierul csv le va recunoaște ca separatoare. Și este probabil ca filele să nu facă parte din propoziție. Deci, țineți cont de acest lucru și utilizați întotdeauna formatul tsv.
Aici avem doar două coloane: Recenzie și Apreciat. Apreciat este 1 pentru comentarii pozitive și 0 pentru negative. Acum trebuie să-l importăm.
Folosim metoda panda read_csv, dar cu delimitator special de parametri, care este acum tab. După aceea, trebuie să ne curățăm datele.