Tesseract OCR and some Telugu Training files

TESSDATA
tesseract అనేది cpu అయితే, దానికి కావలసిన memory యే tessdata.
ఒక భషలో training ఇవ్వడమంటేనే, ఆ భాషలో ఈ tessdataని తయారు చేయడమన్నమట.

తెలుగు భాషా ఫాంట్‌ కోసం tesseract OCR ని శిక్షణ ఇవ్వడం అనేది శిక్షణ డేటాను సృష్టించడం మరియు దానిని ఉపయోగించి కస్టమ్ మోడల్‌ను నిర్మించడం. ఈ ప్రక్రియ యొక్క వివరణ ఇక్కడ ఉంది:

వివిధ గిటాబ్ సోర్స్ల ద్వారా ద్వారా పొందిన డేటాను ఇక్కడ ఉంచాను ఆయా ఫైల్స్ దింపుకొని పరీక్షించుకోవచ్చు వీటి ద్వారా వచ్చే తప్పులకు నాకు సంబంధం లేదు. నేను నిమిత్త మాత్రుడను 🙂

లంకె: https://drive.google.com/drive/folders/1_SQn95c1nh38vcmvEvcTu_WlcpYrkN_c?usp=drive_link

ఇది కూడా చూడండి నేను పరీక్షించినప్పుడు అంత అద్భుతంగా కనపడలేదు: https://indic-ocr.github.io/tessdata/

1. శిక్షణ డేటా సిద్ధం చేయడం:

  • చిత్ర ఫైళ్ళు: కొత్త తెలుగు ఫాంట్‌లో టెక్స్ట్ నమూనాలను కలిగి ఉన్న చిత్ర ఫైళ్ళను (TIFF ఫార్మాట్ ఉత్తమం) సృష్టించండి. టెక్స్ట్ వివిధ అక్షరాలను కలిగి ఉందని నిర్ధారించుకోండి, వీటిలో అప్పర్‌కేస్ మరియు లోయర్‌కేస్ అక్షరాలు, సంఖ్యలు, వీడియోపంక్తులు మరియు సాధారణ తెలుగు చిహ్నాలు ఉంటాయి.
  • బాక్స్ ఫైళ్ళు: ప్రతి చిత్రానికి బాక్స్ ఫైళ్ళను సృష్టించడానికి jTessBoxEditor వంటి సాధనాన్ని ఉపయోగించండి. ఈ బాక్స్ ఫైళ్ళు చిత్రంలోని ప్రతి అక్షరం చుట్టూ ఉన్న బౌండింగ్ బాక్స్‌లను నిర్వచిస్తాయి, వీటిని టెసెరక్ట్ నేర్చుకోవడానికి ఉపయోగిస్తుంది.

2. టెసెరక్ట్ శిక్షణ:

  • టెసెరక్ట్ శిక్షణ సాధనాలు: imagick మరియు leptonica వంటి టెసెరక్ట్ శిక్షణ సాధనాలు మీకు అవసరం. సంస్థాపన సూచనల కోసం టెసెరక్ట్ డాక్యుమెంటేషన్‌ను చూడండి.
  • శిక్షణ స్క్రిప్ట్: టెసెరక్ట్‌ని శిక్షణ ఇవ్వడానికి వివిధ పద్ధతులు ఉన్నాయి. ఇక్కడ రెండు సాధారణ పద్ధతులు ఉన్నాయి:
    • లెగసీ శిక్షణ: మీ చిత్రం మరియు బాక్స్ ఫైళ్ళ నుండి traineddata ఫైల్‌ను జనరేట్ చేయడానికి tesseract మరియు lstmtraining వంటి టెసెరక్ట్ శిక్షణా 명령లను ఉపయోగించండి. వివరణాత్మక సూచనల కోసం https://stackoverflow.com/questions/41295527/tesseract-training-for-a-new-font వంటి వనరులను చూడండి.

Stuff Required for Telugu Training
1) You need to give the program a *.box,*.tiff file pair, the tiff file contains all the possible characters (as an image), and the box file contains co-ordinates of the boxes and the characters corresponding to the tiff file.

Eg:-
Image and Box file contents
sample telugu text

కే 29 115 50 154
్య 49 94 67 135
క్రై 81 79 114 150
క్ష్య 142 94 181 148
ప్రే 28 25 56 78
జ్ఞ 82 14 110 61
ఋ 141 36 204 62
As seen in Box File viewer

A *.box file viewer is one of many programs written by OCR enthusiasts for the sake of easy manipulation of box files. CowBoxer is one of them.

ఇలా చేసిన కొన్ని ఫైలు ఇక్కడి నుంచి దింపుకోవచ్చు మీరు ఓసిఆర్ చేయాలనుకున్న టెక్స్టనుంచి వివిధ ట్రైన్ తెలుగు డేటా ద్వారా పరీక్షించి అవసరమైనది ఎంపిక చేసుకోవచ్చు

లింకు:

Leave a comment