尚书六号表(biǎo)格文字识(shí)别系统可(kě)以对彩色、灰(huī)度图像文件直接进行识(shí)别;尚书六号(hào)支持更多的(de)扫描文件格式,例(lì)如tiff、bmp和jpg格式;与此(cǐ)同时,尚(shàng)书六号完善了表格识别功能,各式各样(yàng)的(de)表(biǎo)格几乎都可以(yǐ)原(yuán)封不动的(de)由图片格式(shì)转变为可以自(zì)由编辑的文(wén)字格式。
尚书六号支持TIFF、BMP和(hé)JPG格式等扫描(miáo)。
OCR也就是文(wén)字(zì)识别技术(shù),运用电脑或者扫描仪来识别(bié)图片或者数字图(tú)片文件里的文字(zì)内容,方便(biàn)文字(zì)录入,提高工(gōng)作效率。
使用只需要用本软件打(dǎ)开要识别的文字的图片(piàn),点击识别即可,识别率非常高,即便是有严重划痕和(hé)干扰(rǎo)的图片,也能达到惊人的98.5%!
按书写(xiě)方(fāng)式区分,汉字识别可分为手写汉字识别和印刷体(tǐ)汉字(zì)识别两大类。按工作方式(shì)区分,则可分为联(lián)机汉字识别和脱机汉字识别两种方式(shì)。前(qián)者为实时识别,书写者(zhě)在专用书写书写的汉字即时送(sòng)入计算机进行识别;后者为非实(shí)时识别,打印或已(yǐ)写好(hǎo)的(de)书面文字经光电转换装置(如扫描仪等)变为电(diàn)信号后(hòu)送入计算(suàn)机进行识别,通常把这种设备叫做光电阅读机(optical character reader),记为 OCR。
汉(hàn)字识别是模式识别的一个分支。汉字(zì)是一种(zhǒng)特殊的模式,其特点是字数多,字形复杂(zá),有的字形十分相似,印(yìn)刷体(tǐ)汉字又有多(duō)种字体(仿宋、宋、黑、楷书与打印体等)和多种(zhǒng)大小不同的字号(hào)。因(yīn)而汉字识别是一个相当困难的问题。
和(hé)一(yī)般的模式识别相同,汉字识别的基本方(fāng)法主要有(yǒu)统计法(fǎ)和(hé)结(jié)构法两种(zhǒng)。汉字(zì)由笔划组成,具有较严格的(de)拓扑(pū)结(jié)构,包含(hán)丰(fēng)富的结构信息,因而结构法较适用于汉字(zì)识别。中国和日本(běn)学者先后提出(chū)若干以结构信息(xī)为主的统计与(yǔ)结构法相结(jié)合的新算法,选用了-些分类能力(lì)强、抗畸变和干(gàn)扰性能好的特征,较好地解决(jué)了多(duō)子体多字号混(hún)合排(pái)印的印(yìn)刷体汉字脱机识别和限制性手写汉字联机识别问题(tí)。研(yán)制成功几种识(shí)别系统,并已付诸应用。
汉字识别系统大(dà)体上可(kě)分为预处理(lǐ)、特征提(tí)取与识别和后处理三部(bù)分,见(jiàn)图(tú)。在脱机识别系统中,扫描仪将打印或书写在(zài)纸上(shàng)的汉字文稿,转(zhuǎn)换(huàn)为(wéi)电信号输入计算机,经版(bǎn)面分析、逐字(zì)分割和(hé)归一(yī)化等(děng)汉字(zì)识别(bié)预处(chù)理后,获得版(bǎn)面上各个汉字的(de)二维(wéi)点阵图形。特征提取和识(shí)别部(bù)分的任务是提(tí)取识别特(tè)征,并将它和存储在识(shí)别字典内的(de)每个特(tè)征模板逐一(yī)进行比较、判别,得出(chū)识别结(jié)果(guǒ)。汉(hàn)字识别后处(chù)理部(bù)分利用词组或上下文关系纠正识别结果中的一些错(cuò)误,以提高(gāo)整(zhěng)个系统的正(zhèng)确识别率。
汉字(zì)识别的(de)用途十分广泛(fàn)。用联机手(shǒu)写汉字识别代替击(jī)键打字的方式,实时(shí)地把汉字(zì)输入(rù)计(jì)算机,比较(jiào)符合人(rén)处理文(wén)字(zì)资料(liào)的习(xí)惯。脱机印刷体汉字识别可用于办(bàn)公室(shì)自动化(huà)、邮件分(fèn)拣、机器翻(fān)译和盲(máng)人机助阅读等方面(miàn)。脱机手写汉字识别的(de)困(kùn)难较大,处(chù)于研究阶段。采用人工(gōng)神经网(wǎng)络的汉字识别研究正越(yuè)来越得到(dào)各(gè)方(fāng)面的(de)重(chóng)视,并(bìng)已取得一些进展(zhǎn)。
