西西软件园多重安全检测下载网站、值得信赖的软件下载站!
西西首页 常用软件 软件下载 安卓软件 游戏下载 安卓游戏 MAC应用 驱动下载 安卓电视
系统工具网络工具媒体工具图形图像聊天工具应用软件编程开发手机软件安卓应用电脑安全字体素材

PDFBox jar包文件

  • PDFBox jar包文件
  • 软件大小:6.6M
  • 更新时间:2014-03-21 15:56
  • 软件语言:中文
  • 软件厂商:
  • 软件类别:国产软件 / 免费软件 / 源码相关
  • 软件等级:4级
  • 应用平台:WinAll, Win7
  • 官方网站:暂无
好评:50%
坏评:50%

本类精品

装机必备软件

软件介绍

提取文本,包括Unicode字符。 

和Jakarta Lucene等文本搜索引擎的整合过程十分简单。

加密/解密PDF文档。 

从PDF和XFDF格式中导入或导出表单数据。 

向已有PDF文档中追加内容。 

将一个PDF文档切分为多个文档。

覆盖PDF文档。

使用PDFBox处理PDF文档

PDF全称Portable Document Format,是Adobe公司开发的电子文件格式。这种文件格式与操作系统平台无关,可以在Windows、Unix或Mac OS等操作系统上通用。

PDF文件格式将文字、字型、格式、颜色及独立于设备和分辨率的图形图像等封装在一个文件中。如果要抽取其中的文本信息,需要根据它的文件格式来进行解析。幸好目前已经有不少工具能帮助我们做这些事情。

使用PDFBox解析PDF内容

在刚刚创建的Eclipse工程中,创建一个ch7.pdfbox包,并创建一个PdfboxTest类。该类包含一个getText方法,用于从一个PDF中获取文本信息,其代码如下。

import java.io.BufferedWriter;
import java.io.FileInputStream;
import java.io.FileWriter;

import org.pdfbox.pdfparser.PDFParser;
import org.pdfbox.util.PDFTextStripper;


public class PdfParser {

   /**
   * @param args
   */
   // TODO 自动生成方法存根

       public   static   void   main(String[]   args)   throws   Exception{ 
            FileInputStream   fis   =   new   FileInputStream("F:\\task\\lerman-atem2001.pdf"); 
            BufferedWriter writer = new BufferedWriter(new FileWriter("F:\\task\\pdf_change.txt"));
            PDFParser   p   =   new   PDFParser(fis); 
            p.parse();         
            PDFTextStripper   ts   =   new   PDFTextStripper();         
            String   s   =   ts.getText(p.getPDDocument()); 
            writer.write(s);
            System.out.println(s); 
            fis.close(); 
            writer.close();
          
   }
}

软件标签: jar

软件截图

PDFBox jar包文件

    其他版本下载

    热门评论

    最新评论

    第 1 楼 1 网友 客人 发表于: 2014/3/21 17:50:16
    和Jakarta Lucene等文本搜索引擎的整合过程十分简单。

    支持( 0 ) 盖楼(回复)

    发表评论 查看所有评论(1)

    昵称:
    表情: 高兴 可 汗 我不要 害羞 好 下下下 送花 屎 亲亲
    字数: 0/500 (您的评论需要经过审核才能显示)

    下载帮助下载帮助西西破解版软件均来自互联网, 如有侵犯您的版权, 请与我们联系。

    TOP
    软件下载