`
fudehai001
  • 浏览: 487158 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

python 搜索 PDF文件 内容

阅读更多
我想做个小东东,需要读取pdf文件的文本内容,然后搜索某个关键词,返回这个关键词所在的页的页码,折腾我好几天了。首先看上了pypdf,啃了半天
洋文,发现这东西只能分割合并pdf文件,读取pdf文件的作者、标题等信息。然后又琢磨ReportLab,硬啃洋文,发现这东西主要是生成pdf文
件,好像也没有读取的方法(生成和读取难道是不相干的吗?),于是又在论坛一阵狂搜,发现有仁兄跟我类似的需要,高人指点他去研究poppler,我放
狗一搜,找到poppler的介绍页面,看到“The documentation is actually missing, help
wanted ”,心里就拔凉拔凉滴,俺是新手,有文档都要尚且研究半天,何况没文档啊,那是神人做的事啊,各位大侠,能否给指点一条明路,已经
折腾我好几天了,还没搞定?我只是想用python读取一下pdf文件的文本内容啊。
--~--~---------~--~----~------------~-------~--~----~
来自: `python-cn`:CPyUG ~ 华蟒用户组 | 发言:python-cn@...
退订: http://tinyurl.com/45a9tb /针对163/qq邮箱:http://tinyurl.com/4dg6hc
详情: http://groups.google.com/group/python-cn
严正: 理解列表! 智慧提问! http://wiki.woodpecker.org.cn/moin/AskForHelp
-~----------~----~----~----~------~----~------~--~---

1,poppler-utils 里边有 pdftotext、pdftohtml、pdfinfo 等工具用于提取 pdf 内容 。

下载了pypoppler-0.10.0.tar.gz,发现里面的文件没有setup.py,不能用python
setup.py install,而是linux下的install-sh的安装方式,我的是window xp系统,应该怎么安装呢?
安装 mingw、msys、python-dev,gtk-dev,pygtk-dev
不过应该还是 os.popen 调用 pdftotext.exe 简单

2,PDFminer比pdftoexe强太多了,正是我想要的。

----------------------------------------------------------------------------

最新免费的python开源项目

1、用python来做一个蜘蛛程序抓取网页,有了urllib库,真是太简单了。另外网页的解析也有相应的库sgmllib可以使用。不过还不知道python的sgmllib有没有类似 Jtidy 的规范html代码的功能,或者是有另外的库来干这事。

比较有名气的:

Harvest Man——http://code.google.com/p/harvestman-crawler/

HarvestMan is a modular, extensible and flexible web crawler program cum framework written in pure Python. HarvestMan can be used to download files from websites according to a number of customized rules and constraints. It can be used to find information from websites matching keywords or regular expressions.

The final goal of the project is to develop a full-fledged semantic personal data mining platform which can be used to retrieve information from the Internet in a highly customizable manner, so that one can fetch information from the web the way he wants it, when he wants it. For this, HarvestMan project will provide support for Web 2.0 and 3.0 technologies such as RSS, RDF, OWL etc. (这个目标还真是大啊,要是真的可以做到那就真是牛逼。)

另外,还有一些小的项目,用Google code或者 sourceforge.net搜索,就可以找到。

举个例子:

http://code.google.com/p/supercrawler/

2、对pdf文件的操作,C++,c#和java都有一些开源的类库可以使用。比如:pdflib,itext,pdfclown,pdfbox.

他们可以实现pdf文件的解析,并实现pdf与rtf html xml等格式之间的相互转换。

今天发现了一个可以操作pdf的python库: pdfminer.

http://code.google.com/p/pdfminerr/

不知道有没有其他的库。希望高手补充。

3、有了pdf的操作库,可以轻松实现对pdf文件内容的有目的的抽取。

这里有一个抽取文献的参考文献的例子:

pdf2ref

http://code.google.com/p/pdftoref/

This project aims to develop an efficient rule based extractor of entries of references, located in scientific articles in English language. The application takes a pdf file or a directory of pdf and then returns an html file, containing the list of all entries with their respective title. Moreover the title of the article cited is searched through Google Web Service to get the URL that identifying the article on the web. If the URL provides on the page a Bibtex entry, this will appear in the html output under the relative entries, stolen from some typical site like citeseer, ieeexlpore etc. The application does not make search over pdf file based on images.
分享到:
评论
1 楼 jimmyxt 2009-11-03  
你好,我最近也在研究python 搜索 pdf文档 内容的方法,一直没有找到。
而你这篇文章也没有写具体的方法,所以请你能详细的写一下方法,
万分感谢。

相关推荐

    Python处理PDF及生成多层PDF实例代码

    Python提供了众多的PDF支持库,本篇文章主要介绍了Python处理PDF及生成多层PDF实例代码,这样就能够实现图片扫描上来的内容也可以进行内容搜索的目标

    python的PyPDF2库实现的PDF文件转换为TEXT源代码

    PyPDF2库是一个功能强大的Python库,可用于处理PDF文件。其主要功能之一是将PDF文件...PyPDF2库还支持对PDF文件进行页面旋转、加密和解密操作,使用户可以更灵活地管理和保护PDF文件内容。是一个多功能且易于使用的工具

    Automate the Boring Stuff with Python.pdf

    一旦你掌握了编程的基本知识,你就会创建一个Python程序,它可以毫不费力地实现有用和令人印象深刻的自动化壮举:-在一个文件中或多个文件中搜索文本-创建、更新、移动和重命名文件和文件夹-搜索Web并下载在线内容-...

    PYTHON本地文件搜索整理[整理].pdf

    PYTHON本地文件搜索整理[整理].pdf

    python读取robot文件内容-RobotFrameWork读取excel等文件数据.pdf

    python读取robot⽂件内容_RobotFrameWork读取excel等⽂件 数据 ⼀、读取excel⽂件 1、安装robotframework-ExcelLibrary⽂件 由于该库只⽀持到python2.7,因此不能使⽤python3的pip安装此⽂件,需要先下载该库:robot...

    Python3入门指南_v2.4.pdf

    这是DS小龙哥编写整理的,Python3入门指南.pdf,总共10章,可以当做入门书籍、平时的参考书籍,文中代码都可以复制粘贴。后续资源包会持续更新。 这是书籍的目录 编辑: DS小龙哥 1 Python3入门指南 1 一、 Python...

    像计算机科学家一样思考Python(第2版).pdf

    内容简介 · · · · · · 本书以培养读者以计算机科学家一样的思维方式来理解Python语言编程。贯穿全书的主体是如何思考、设计、开发的方法,而具体的编程语言,只是提供了一个具体场景方便介绍的媒介。 全书共...

    python实现PPT批量转换为PDF.rar

    要将PPT文件转换为PDF文件,你可以按照以下几种方法进行操作: 1. 使用Microsoft PowerPoint软件: - 打开要转换的PPT文件。 - 在菜单栏中选择“文件” -> “另存为” -> 选择PDF格式 -> 点击“保存”按钮即可将...

    Python免费资源集合AwesomePython.zip

    Awesome Python环境管理开发包和依赖分发构建工具文件操作日期和时间文本处理自然语言处理文档配置命令行工具图像处理音频视频地理位置HTTP数据库数据库驱动ORMWeb框架CMSRESTful API身份认证模板引擎事件和任务队列...

    Python概述(1).pdf

    Python 程序可以搜索文件和目录树,可 以运行其他程序,用进程或线程进行并行处理等等。 Python 提供了标准 Internet 模块,使 Python 能够广泛地在多种网络任务中发挥作用, 无论是在服务器端还是在客户端都是如此...

    Python核心编程(第二版).pdf (压缩包分2部分,第二部分)

    原书名: Core Python Programming (2nd Edition) 原出版社: Prentice Hall PTR 作者: (美)Wesley J. Chun 译者: 宋吉广 出版社:人民邮电出版社 ISBN:9787115178503 上架时间:2008-6-23 出版日期:2008 ...

    python如何将多个PDF进行合并

    工作和生活中有时会遇到将多个pdf文件,合并成一个大文件的情况。例如,扫描时,普通扫描仪或打印机一页生成一个PDF,而一份资料实际多页。Adobe的收费版有合并功能,我们可以自己动手解决。根据网上搜索了几个合并...

    Data Structures and Algorithms with Python - Kent D. Lee, Steve Hubbard

    还介绍了计算复杂性的概念,演示了可以有效计算和不能有效计算的内容,以便程序员可以对使用的算法做出明智的判断。本书假定您具有一些计算机编程的基本经验,并且熟悉面向对象的语言,但不一定需要使用Python。 ...

    拿来就用!Python批量合并PDF的示例代码

    大家好,今天分享一个实用的办公脚本:将多个PDF合并为一个PDF,例如我手上现在有如下3个PDF分册,需要整合成一个完整的PDF ... # 设置存放多个pdf文件的文件夹 dir_path = r'C:\Scientific Rese

    Python Cookbook

    2.21 动态地改变Python搜索路径 89 2.22 计算目录间的相对路径 91 2.23 跨平台地读取无缓存的字符 93 2.24 在Mac OS X平台上统计PDF文档的页数 94 2.25 在Windows平台上修改文件属性 95 2.26 从OpenOffice.org...

    Python核心编程(第二版).pdf (压缩包分2部分,第一部分)

    原书名: Core Python Programming (2nd Edition) 原出版社: Prentice Hall PTR 作者: (美)Wesley J. Chun 译者: 宋吉广 出版社:人民邮电出版社 ISBN:9787115178503 上架时间:2008-6-23 出版日期:2008 ...

    Python Qt GUI 快速编程-PyQt编程指南.part1.rar(可复制、可搜索)

    因为此文档是可复制、可搜索的,所以方便做笔记(推荐使用win10自带的Edge浏览器,有文本高亮和注释功能)。 文件太大了,上传受限,只能分卷压缩上传了。

    Python小工具:据说这是搜索文件最快的工具!没有之一!一起感受下.......pdf

    Python小工具:据说这是搜索文件最快的工具!没有之一!一起感受下......

    DocumentsTextSearch:使用python在doc、xls、pdf、txt文件中搜索文本

    文档文本搜索 使用python在doc、xls、pdf、txt文件中搜索文本 仅支持windows,使用win32com、pyExcelerator、pdfminer等多种python模块 FindInDoc.py为主要代码,其他用于测试

    文件内容搜索工具(多线程版)

    文件内容搜索工具(多线程版),支持常用的PDF,XLS,XLSX,DOCX,TXT等文档内容搜索,办工必备神器。采用PYTHON开发。

Global site tag (gtag.js) - Google Analytics