这(zhè)是tesseract3.04简体中文语言包chi_sim下(xià)载,谷歌开源OCR,tesseract的最新版本3.04的,对应(yīng)的(de)简体中文语言(yán)包,可以不用(yòng)翻墙下(xià)了。
tesseract3.04简体中文语言包chi_sim可以直接(jiē)将图片中的文字进行识别,其最(zuì)新版本3.0已(yǐ)经支持中文OCR,并提(tí)供了一个命令(lìng)行工(gōng)具,转(zhuǎn)换成文本信息。tesseract-ocr官方下载据说曾经的图像识(shí)别能力排名第三。tesseract-ocr中文(wén)版(bǎn)可以识别(bié)多种格式的图像文件并将其转换成(chéng)文本,目前(qián)已支(zhī)持60多种语言(包括中文)。 Tesseract最初(chū)由HP公司开发,后来由Google维(wéi)护,目前(qián)发(fā)布在Googel Project上。
tesseract3.04简体中文语言包chi_sim是(shì)原先(xiān)惠普开发的(de)图像识别类(lèi)库,后面成(chéng)为Open source,据说曾(céng)经的图(tú)像识别能力排名第三,为(wéi)大家提供的版本(běn)是3.02.02 for windows。
tesseract code.jpg result -l chi_sim -psm 7 nobatch
-l chi_sim 表示用简体(tǐ)中(zhōng)文字库(需(xū)要下载中(zhōng)文(wén)字(zì)库文(wén)件,解压(yā)后,存放(fàng)到tessdata目(mù)录下去,字(zì)库(kù)文件扩展名为 .raineddata 简体(tǐ)中文字库(kù)文件名为: chi_sim.traineddata)
-psm 7 表示(shì)告诉(sù)tesseract code.jpg图片是一行文本(běn) 这个参数可以减少识(shí)别错误率. 默认为 3
configfile 参数值为tessdata\configs 和 tessdata\tessconfigs 目录(lù)下的文件名
