这(zhè)是chi_sim.traineddata.gz下载,tesseract-ocr中(zhōng)英文(wén)数据(jù)包(bāo)chi_sim.traineddata.gz eng.traineddata.gz.初期Tesseract引擎(qíng)由HP实验室研(yán)发,后来贡献给了开源软件业,后经由Google进行改进。
chi_sim.traineddata.gz我用不了(le)那(nà)么多(duō)字,然后就按官方和(hé)网上(shàng)的资料自(zì)己做了一个识别库,这个库只(zhī)能(néng)识别训练过的文字。速度生成的文件应该跟训练的字数有关的,我(wǒ)实验了几个字,只(zhī)有100多k。 但是发现一个很明显的问题是,默认的识别速(sù)度比较慢。识别四个很明显(xiǎn)的字需要将近两秒。
为什么用(yòng)3.05呢?
从官方文档上看4.0版本(windows版本于2017年1月30号发布)显著的提高了识(shí)别率,同(tóng)时(shí)也加大了性能的消耗(hào)。理论上我是应(yīng)该用4.0。但(dàn)这不是重点。重点是(shì)有(yǒu)windows的版本有诡异(yì)的bug! 花了好久没有解(jiě)决。
不过(guò)还好,4.0支持3.05版本(běn)的所有语法。换而言之,下面的所(suǒ)有内容(róng)在4.0都(dōu)是可以用(yòng)的。
•大多数比较老,有部分内容已经不适用。
•大部(bù)分(fèn)只是就英文的训练进(jìn)行(háng)探(tàn)索,很少针对(duì)中(zhōng)文的训练。
接(jiē)下来尽可(kě)能详细的介(jiè)绍自己tesseract训练中文识别(bié)的经验。
