水淼·万能文章采集器(SMGod)是一款(kuǎn)基于高精度(dù)正文识(shí)别算法的互(hù)联网文章采(cǎi)集器。支持按关键词(cí)采集百度等搜索引擎的(de)新闻源(news.baidu.com)和泛网(wǎng)页(yè)(www.baidu.com),支持采集指定网站栏目下(xià)的全部文章。
此算法由水淼自主研发,可以在一个网页里提(tí)取出正文部分,通常精度可以达到95%,如(rú)果(guǒ)再进一步设(shè)置最少字数,采集(jí)的文章(zhāng)的(de)精度(正确(què)性)可以达到99%。同时>
文章标(biāo)题也实(shí)现99%的提取精度。当然,一些网页排版(bǎn)格(gé)式比较混乱、不(bú)规则时,该精度可能有所下降。
正文提取算法有3种模(mó)式,标准、严格、精确标签。大(dà)多数情况,标准和严(yán)格模式是(shì)相(xiàng)同的提取结果。下面说的是特殊情况:
标准模(mó)式:即(jí)一(yī)般性提(tí)取,大多数时候(hòu)能够(gòu)精确提取(qǔ)正文,但一些特殊页面会导(dǎo)致提取到(dào)一(yī)些不需要内容(róng)(但本(běn)模式(shì)能够较好识别类似百度经验的(de)文章页(yè)面)
严格(gé)模式:顾名思义,比标准(zhǔn)模式严格(gé)一点,可以很大程度避免(miǎn)不相关(guān)内容提取(qǔ)为正文(wén),但对于特殊分段页面如百度经验的页(yè)面(不是(shì)一般(bān)<p></p><br>段(duàn)落,而是(shì)有格式的多个独(dú)立div段),一般只(zhī)能提取到某(mǒu)一段,而标准模式则可以提取全部(bù)段。
精确标(biāo)签:当标准(zhǔn)和严格模式不管用时(shí),可以(yǐ)精确指(zhǐ)定目标(biāo)正文的标签头。本(běn)模式只(zhī)适合(hé)网络批处理。
所以可以根据实际情况来切换(huàn)模式。可以使用本地批处理(lǐ)的读网页正文功能来测试指定(dìng)网页适合哪种模式(shì)提取。
应用平台:WinXP, Win7, Win8, Win10, WinAll
