GitHub - openfoodfactsoff-nutrition-extractor-de-masa
Acest depozit reprezintă acumularea tuturor lucrărilor efectuate în timpul verii Google Code 2018.
- Student: Sagar Panchal
- Github: sgrpanchal31
- Organizare: Fapte despre alimente deschise
- Proiect: OCR pe tabelul cu fapte nutriționale
Conducta este alcătuită din trei părți majore și anume detectarea tabelelor, detectarea textului și OCR cu post-procesare.
Pentru detectarea tabelelor într-o imagine, folosim modelul de detectare a obiectelor Single Shot Detector (SSD). Modelul este instruit pe API-ul de detectare a obiectelor Tensorflow. Notebook-ul Jupyter furnizat arată modul în care utilizăm graficul pre-instruit pentru a detecta tabelele din imaginile produsului. Înainte de a rula notebook-ul, instalați modelul de detectare a obiectelor din Github Repository al Tensorflow.

Detectarea și extragerea textului
Detectarea textului se face folosind text-detection-ctpn care folosește fast-rcnn pentru a extrage regiunile textuale din imagine. În viitor, intenționăm să îl actualizăm la un model de detectare a textului mai rapid și mai precis.
OCR și post-procesare
Pentru recunoașterea textului, folosim Tesseract OCR. Fiecare casetă de text detectată de la pasul de detectare a textului va fi trecută prin OCR și va fi returnat un șir brut care este apoi trecut prin mai multe etape de post-procesare care curăță șirul (prin expresii regulate) și corectează orice erori de ortografie în șirul symspell algoritm de corectare a ortografiei).