尚(shàng)书六(liù)号文字识别系(xì)统完全版可以对彩色、灰度图像文件直接进(jìn)行识别;尚(shàng)书六号支持更多的扫描文件格式,例(lì)如tiff、bmp和jpg格式;与此(cǐ)同时,尚书六号完善了(le)表格识(shí)别功(gōng)能(néng),各式各样(yàng)的表格几乎都可以原封不动的由图片格(gé)式(shì)转变为可以(yǐ)自由编辑的(de)文字格式。
尚书六号支(zhī)持(chí)TIFF、BMP和(hé)JPG格(gé)式等(děng)扫描。
OCR也就是(shì)文字(zì)识别技术,运用电(diàn)脑或者扫描仪来识别图片或者数字图片(piàn)文件里的文字内容,方便文(wén)字录(lù)入,提(tí)高工作(zuò)效率。
使用只需要用(yòng)本软件打开要识别的文字(zì)的图片,点击识别即可,识别率(lǜ)非常高,即便是有(yǒu)严重(chóng)划痕和干扰的图(tú)片,也能达到(dào)惊人的98.5%!
按书写方式区(qū)分,汉字识别可分为手写汉字识别和(hé)印刷体(tǐ)汉字(zì)识别两大类。按工(gōng)作方(fāng)式区(qū)分,则可分为联机(jī)汉字识别和脱机汉字识别(bié)两种方式。前者为实时识别,书写者(zhě)在专用书写书写的汉字即时送入计算机进行识别;后者为非实时识(shí)别(bié),打(dǎ)印或已写(xiě)好的书面文字经光电转换装置(zhì)(如扫描仪等)变(biàn)为(wéi)电信号后送入计算机进行识别,通常把这种设备叫做光电阅读机(optical character reader),记为 OCR。
汉字(zì)识别是(shì)模式(shì)识(shí)别(bié)的一个分支。汉字是一(yī)种特殊的模式,其特点是字数多,字形复杂,有的字形十分相(xiàng)似,印(yìn)刷体汉字又(yòu)有多种字体(仿宋、宋、黑(hēi)、楷书(shū)与打印(yìn)体(tǐ)等)和多种(zhǒng)大小不同的字号。因而(ér)汉字识别是一个相(xiàng)当困难的问题(tí)。
和一般的模(mó)式识别相同,汉字识别的基(jī)本(běn)方法主要有(yǒu)统(tǒng)计法和结构法两种。汉字由笔划(huá)组成,具有较(jiào)严格(gé)的拓扑结构,包含丰富的结构信(xìn)息,因而结构法较适(shì)用于汉(hàn)字识别(bié)。中国和日本学者(zhě)先后提出若干(gàn)以结(jié)构信息为主的统计与结构法相(xiàng)结合的新算法,选用了-些分类能(néng)力强、抗(kàng)畸变和干扰性能好的(de)特征,较好地(dì)解决(jué)了多(duō)子体多字号混合排印的印(yìn)刷(shuā)体汉字(zì)脱机识别和(hé)限制性手(shǒu)写汉字联机识别问题。研制成功几种识别系统(tǒng),并已付诸应用。
汉字识别系统(tǒng)大体上(shàng)可分(fèn)为预(yù)处(chù)理、特征提取与识别和后处理三部分,见图。在脱(tuō)机(jī)识别系统中,扫描仪将打印或书写在纸上的(de)汉(hàn)字文稿,转换为电信(xìn)号输入计(jì)算机,经版面(miàn)分析、逐字分(fèn)割和归一化等汉字识别(bié)预处理后,获(huò)得版面上(shàng)各个汉字的二(èr)维(wéi)点阵图形。特(tè)征(zhēng)提取和(hé)识别(bié)部分的任务是提取(qǔ)识(shí)别(bié)特征,并将它和存储在识别(bié)字典内的每个(gè)特征模板逐一进行比较、判别(bié),得出(chū)识别结果。汉字(zì)识别后处理部分(fèn)利用词组或上下文关系纠正识别结(jié)果中的一(yī)些错(cuò)误,以提高(gāo)整个(gè)系统的正确识别率。
汉(hàn)字识别的用途十分广(guǎng)泛(fàn)。用联机(jī)手写汉字识别代替击(jī)键打字的方式,实时地把(bǎ)汉字输入计算机(jī),比(bǐ)较符合人处理文字资料的习惯。脱机印刷体汉字(zì)识别可用于(yú)办公室自动化(huà)、邮件(jiàn)分拣(jiǎn)、机(jī)器翻译和盲(máng)人机助阅读等方(fāng)面。脱机手写汉字(zì)识(shí)别的困难(nán)较(jiào)大,处于研究阶段。采用人工(gōng)神经网络(luò)的(de)汉字识别研究(jiū)正越来(lái)越得(dé)到(dào)各方面的重(chóng)视,并已取得(dé)一些进展(zhǎn)。
