这是IKAnalyzer-3.2.8.jar下载, IKAnalyzer是一(yī)个开源的,基于(yú)java语言开(kāi)发的轻量级的中文分词工(gōng)具包。从2006年12月推出1.0版开始,IKAnalyzer已经推出(chū) 了3个大版本。最初,它是以开源项目(mù)Luence为应用主体的(de),结合(hé)词典分词和文法分析算(suàn)法(fǎ)的中文分词组件。新(xīn)版本的IKAnalyzer3.0则发展为 面向Java的(de)公用分词组件,独立于Lucene项目,同时提供了对Lucene的默认优化实现。
IKAnalyzer-3.2.8.jar为简化用户对查(chá)询逻辑(jí)的(de)处理,提供了(le)基于表达式(shì)的搜索逻辑处理。它与Lucene自带(dài)表达(dá)式的不同(tóng)之处,在于它采用了IKQueryParser对(duì)中文分词歧义处理的算(suàn)法。相对Lucene QueryParser而言(yán),用它生(shēng)成的Query对象(xiàng)也许更(gèng)能命中(zhōng)搜索结果(guǒ)。
•1.表达式使用 属性名<->属性(xìng)值 键值对的形式,属性值使(shǐ)用”’”单引(yǐn)号标识。
•2.在键值对中使用 “=”等(děng)号(hào),表(biǎo)示对该(gāi)属性的精确搜索(不分词),适用于(yú)对ID、编(biān)号、分(fèn)类等(děng)精(jīng)确(què)值属性搜(sōu)索;使用“: ”冒(mào)号表示对属性的模糊搜索(分词(cí)搜索(suǒ)),适(shì)用(yòng)于文本内容的全(quán)文搜索。
•3.在(zài)使用“: ”时,连续的搜索关键字将解析为 AND 逻辑,如果(guǒ)关键字中带有空格(gé),这解析为OR逻(luó)辑。如:title:'文档标题(tí)' 表示搜索title中同时包含“文档”AND“标题“的数据,title:'文(wén)档_标题' 表示搜索(suǒ)title中包(bāo)含“文档”OR“标题“。(这个(gè)例子中,我们默认你使用(yòng)的IK分词器(qì)能将”文档标题“切(qiē)分为”文档(dàng)“和”标题“两个词)
•4.表(biǎo)达式支持“&&”与 “||” 或(huò)“-”非的逻辑操作,以及“( )”括号优先级(jí)定(dìng)义(yì)。注意(yì)“-”非(fēi)逻辑不能单独使(shǐ)用,即 “– author='helloworld'” 是非法表达式。
•5.目前就是这(zhè)么简单,暂不支持(chí)更复(fù)杂的搜索逻辑:).
•1.优化(huà)了(le)英文(wén)字符处理,支持如:C++ 等带符号单词输出
•2.简(jiǎn)化了数词处理,使输出结果更符合用户观(guān)感
•3.改进(jìn)了(le)最大词长切分(fèn),使(shǐ)输出结果更符合(hé)用户观感
•4.性能优化,目(mù)前(qián)IK分词器的速度(dù)为约85万(wàn)字(zì)/秒(1600K字节/S)
•5.新增IK简易查询表达式,简化用户使(shǐ)用
