这是htmlparser1.6源(yuán)码(mǎ)、文档及(jí)jar包下载,是(shì)一个纯(chún)的java写的html解析的(de)库,它(tā)不依(yī)赖(lài)于其(qí)它的(de)java库文件,主(zhǔ)要用于改造或提取html。它能超高速解析html,而且不会(huì)出错。毫不(bú)夸张地说,htmlparser就是(shì)目(mù)前最好的html解析(xī)和分析的工具。无论(lùn)你是(shì)想抓取网页数(shù)据还是改造html的内(nèi)容,用了htmlparser绝对(duì)会忍不住称赞。
htmlparser1.6源码、文档及jar包是(shì)过滤器(qì) (Filters),访问者模(mó)式 (Visitors),处理自定义标签(qiān)以及易于使用的 JavaBeans。正如 HtmlParser 首页所说(shuō):它(tā)是一(yī)个(gè)快速(sù),健(jiàn)壮以及严格测试过的组件;以它设计的(de)简洁,程(chéng)序(xù)运行的速(sù)度以(yǐ)及处(chù)理 Internet 上真实网页的能力吸引着越来(lái)越多的(de)开发者。 本文中就是利用HtmlParser 里提取(qǔ)网(wǎng)页里的(de)链接,实现简易爬虫里的关键(jiàn)部分。HtmlParser 最新的版本是(shì)HtmlParser1.6。
这篇文章介(jiè)绍(shào)了 HtmlParser 开源(yuán)包和 HttpClient 开源包使用在(zài)此基(jī)础(chǔ)上实现了个简易网络爬虫 (Crawler)来介绍说明如何使用 HtmlParser 根据需要处理 Internet 上网页以及如(rú)何使(shǐ)用 HttpClient 来简化 Get 和(hé) Post 请求操作(zuò)构(gòu)建强大(dà)网络(luò)应(yīng)用 。
HTTP 协议是现在因特网最重要协议的(de)除了 WEB 浏览器的外 WEB 服(fú)务基(jī)于网络应用以及日益(yì)增长网络计算(suàn)不断扩展着 HTTP 协议角色(sè)使得越(yuè)来越多应(yīng)用需要 HTTP 协议支持虽然 JAVA 类库 .net 包提供了基本功(gōng)能(néng)来使用 HTTP 协议访问网络资源但是其灵活性和(hé)功能远不能满(mǎn)足很多应用需要而 Jakarta Commons HttpClient 组件(jiàn)寻求提(tí)供更为灵活更加高效 HTTP 协议支持简化(huà)基于 HTTP 协议应用创建 HttpClient 提(tí)供(gòng)了很(hěn)多特性支持最新 HTTP 标准(zhǔn)可以访问这(zhè)里了解更多有关 HttpClinet 详细信息目前(qián)有很多开源项目都用到了 HttpClient 提供 HTTP功能登陆网(wǎng)址可以查看这些(xiē)项目本(běn)文中使用 HttpClinet 提供类库来访问和下载 Internet上面(miàn)网页(yè)在后续部分会详细介绍到其提供两(liǎng)种(zhǒng)请(qǐng)求网络资源(yuán)思路方法: Get 请求(qiú)和 Post 请求Apatche 提供免费 HTTPClien t源码和 JAR 包(bāo)下载(zǎi)可以登陆这里 下(xià)载最新HttpClient 组件(jiàn)笔者使用是 HttpClient3.1 。
