这是PDFBox jar包(bāo)下(xià)载,是一个开源(yuán)的(de)用于处理(lǐ)PDF文档的 Java工具,支持(chí)各种语言和平台的(de)PDF工具和类(lèi)库就如(rú)雨后(hòu)春笋般涌现。PDFBox 提取文本,包括Unicode字(zì)符。PDFBox和(hé)Jakarta Lucene等(děng)文本搜索引擎(qíng)的(de)整合过程十分(fèn)简(jiǎn)单。加密(mì)/解密PDF文档(dàng)。PDFBox从PDF和XFDF格式中导入或导出表单数据。向已有PDF文档中追(zhuī)加内容。将(jiāng)一个PDF文档切(qiē)分为(wéi)多个文档。
PDFBox jar包全称Portable Document Format,是Adobe公司开发的电(diàn)子文件格式。这种(zhǒng)文件格式与操作(zuò)系统平台无关,可以在Windows、Unix或(huò)Mac OS等操(cāo)作系统上通用。
PDF文(wén)件格式(shì)将文字、字型、格式、颜色(sè)及独立于设备和分辨(biàn)率的图形图像等封装(zhuāng)在一个文件中。如果(guǒ)要抽取其中(zhōng)的文(wén)本信息,需要根据它的文(wén)件(jiàn)格式来进行解析。幸好目前(qián)已经有(yǒu)不少工具(jù)能帮助我们做这些事情。
1、文本提取:从PDF文档中提取(qǔ)文(wén)本。
2、合并&分割:可以把多(duō)个PDF文档合并成单个,也可以(yǐ)把单个(gè)PDF分拆成多个PDF文档。
3、表单填充:可(kě)以从PDF表单中提(tí)取数据,或者是填(tián)充PDF表单(dān)。
4、PDF/A验证:验证(zhèng)PDF文档是否满足PDF/A ISO标准。
5、PDF打印:把PDF文档输出到打印机——利用了Java的打印(yìn)API。
6、PDF转换:可以把(bǎ)PDF文(wén)档转换成映像文件(jiàn)。
7、PDF创建:可(kě)以(yǐ)从头创(chuàng)建新的PDF文档。
8、集成Lucene搜索(suǒ)引擎:Lucene搜索(suǒ)引擎与PDF索引相集成。
PDFBox(一个BSD许可下的(de)源码开放(fàng)项目)是(shì)一个开源的用(yòng)于处理PDF文(wén)档的 Java工具,支持(chí)各(gè)种语言(yán)和平台(tái)的PDF工具和(hé)类(lèi)库就(jiù)如雨(yǔ)后春笋(sǔn)般涌现。PDFBox 提取文本,包括Unicode字符。PDFBox和(hé)Jakarta Lucene等文本搜索(suǒ)引(yǐn)擎(qíng)的整合过程十分简单。加密/解密(mì)PDF文档。PDFBox从PDF和XFDF格式中导入(rù)或(huò)导出(chū)表单数据。向已有(yǒu)PDF文档中追加内容。将(jiāng)一个PDF文档(dàng)切分为多(duō)个文档(dàng)。
