2020년 1월 21일 화요일

우분투 tesseract-ocr 설치

OCR 프로그램 중 유명한건
러시아제인 ABBYY와 open source project인 Tesseract가 있는데,
tessaract가 구글 후원받아서 진행되고 있고 , 최신이 5.0으로 2019년 10월에 업데이트가 되었다. 최신버젼은 홈페이지들어가서 다운받거나 하고,

일단 우분투를 기준으로는

sudo apt-get install tesseract-ocr
sudo apt-get install libtesseract-dev
하면 현재 stable한 4.1 버젼이 설치가 된다.

여기서 tesseract는 언어별로 추가 패키지를 설치할수 있고,

sudo apt-cache seach tesseract
하면 패키지 들이 주르를 나오는데 이중에서  원하는 언어 패키지를
apt-get intstall명령어로 깔면된다.

OCR같은 언어인식 프로그램은 어떻게 보면 인공지능의
Pattern recognition 부분에서 파생되나간부분인데,
요즘 머신러닝이란 이름으로 잘팔리니,, 좋은일이다.

일단 머신러닝보다는 사용법만 기술한다.

 아주단순하게는,

tesseract input.bmp output[.txt]
 이렇게하면 그림이 text로 바뀌어 나온다.

여기서 한글 인식을 위해서는 추가 패키지를 설치해서

tesseract -l kor input.bmp output[.txt]
 이렇게하면 된다,.


한글인식이 잘되지 않는 경우에는 기계학습을 통해서 데이터를 축적시켜줘야되는데,
한글 부분은 일단 패스한다. 영어나 숫자 같은 경우는 쉽게 인식이 되고,

이 모델이 현재 최신 머신러닝 알고리즘으로 시간이 지나면서
계속 업데이트가 되고 있기때문에, 주기적으로 관심을 가지고 보면 좋을듯하다.








댓글 없음:

댓글 쓰기