本文共 312 字,大约阅读时间需要 1 分钟。
1.说明
什么是OCR
光学字符识别,或着说OCR,是指用电子的方式从图片中取出文字然后重用于其他领域,如文档编辑、自由文本搜索,或文本比对。
本教程中,你将学习怎样使用,谷歌维护的一个开源OCR引擎。
Tesseract介绍
Tesseract十分强大,但有以下几点局限性:
不像其他OCR引擎(例如美国邮政业用于分类邮件的),Tesseract不能识别手写,而且只能识别一共大约64中字体的文本。
Tesseract需要一些处理来改善OCR结果,图像需要被放缩,图像有非常多的差异,另外还有水平排布的文字。
最后,Tesseract仅仅支持Liuux,Windows,Mac OS X。
2.Git地址
3.其他demo
转载地址:http://sbogi.baihongyu.com/