这是jsoup-1.8.1.jar下载,jsoup 1.9.2.jar是一(yī)款功能强(qiáng)大的java编程处理(lǐ)html的开发(fā)包,拥有良好的可扩(kuò)展性api设计,可以开发出强(qiáng)大(dà)的html解(jiě)析(xī)功能,有需要的朋友就来下载吧!
jsoup-1.8.1.jar是一款 Java 的HTML 解(jiě)析器,可直接解析某个URL地址、HTML文本内(nèi)容。它提供了(le)一套非常省力(lì)的API,可(kě)通过DOM,CSS以(yǐ)及类似于JQuery的(de)操作方法来取出和操作数据(jù)。
文(wén)档输入(rù)
jsoup 可以从包括字符串、URL地址以及本地文件来加载HTML 文档,并生成Document 对象实(shí)例。
解(jiě)析并(bìng)提取(qǔ)HTML 元素
这部(bù)分涉(shè)及一个HTML 解析(xī)器最基本的功能,但jsoup使(shǐ)用一种有别于其他(tā)开源项目的方式——选择器,我们将(jiāng)在最后一部分详细(xì)介绍jsoup选(xuǎn)择器,本节中你将看到jsoup是如何用最简单的代码(mǎ)实现(xiàn)。
修改数据
在解(jiě)析文档(dàng)的同时,我们可能会需要(yào)对文档中(zhōng)的某些元素进(jìn)行修(xiū)改,例如我(wǒ)们可以为文档中的所有(yǒu)图片增加可点击链(liàn)接、修(xiū)改链(liàn)接地址(zhǐ)或者是修改文(wén)本(běn)等(děng)。
HTML 文(wén)档(dàng)清理
jsoup 在(zài)提(tí)供强大的API 同时,人性化方面也做得(dé)非常好。在做网站的时(shí)候,经常会(huì)提供用户评论的功能。有些用(yòng)户(hù)比较(jiào)淘气,会搞一些脚本到评论内容中,而这些脚本(běn)可能会破(pò)坏整个(gè)页面的行为,更严(yán)重的是获取(qǔ)一些机要信(xìn)息,例如XSS 跨站点攻击(jī)之类的。
修正了一个命名空间标签会causeelement cssselector失败
修正了一个问题,其中包含非ASCII字(zì)符但(dàn)带有ASCII字符的标签名会导致分析器陷入无(wú)限循环中
修正了一(yī)个问题,API创建(jiàn)的XML文(wén)档将有一(yī)个不正确的序言(yán)
修正(zhèng)了一个问题,你不能使用属性选择器(qì)找(zhǎo)到包含不平衡(héng)括(kuò)号(hào)或圆括号的值(zhí)
