- 浏览: 487158 次
- 性别:
- 来自: 北京
文章分类
- 全部博客 (258)
- 0-中医 (83)
- 1-工作 (4)
- 2-生活 (17)
- 3-其他 (3)
- oracle_dev (5)
- oracle_dba (35)
- ebs_gl (1)
- ebs_ap (0)
- ebs_po (0)
- ebs_hr_people (0)
- ebs_hr_payroll (0)
- java (12)
- javaScript (7)
- JSP2.0 (4)
- springMVC (3)
- spring (4)
- iBatis (5)
- Hibernate (3)
- tomcat (2)
- linux (13)
- 网络 (3)
- python (25)
- Django (11)
- z-技术 (13)
- PHPCMS (0)
最新评论
-
bo521dai:
Bravo. contains everything.
Oracle调优总结 -
yangxiutian:
固态硬盘是什么东东,既然对硬件有约束,我想推广难啊,除非若干年 ...
未来操作系统(组图) -
showzh:
...
listener.ora 、sqlnet.ora 、tnsnames.ora的关系以及手工配置举例 -
489687009:
我特别想问一下楼主,现在有了框架后,jsp2.0还有用武之地吗 ...
JSP2.0入门 -
liuzl121:
你好 我刚学java,我想请教下这个SignonControl ...
log4j详尽配置实战(for spring)
我想做个小东东,需要读取pdf文件的文本内容,然后搜索某个关键词,返回这个关键词所在的页的页码,折腾我好几天了。首先看上了pypdf,啃了半天
洋文,发现这东西只能分割合并pdf文件,读取pdf文件的作者、标题等信息。然后又琢磨ReportLab,硬啃洋文,发现这东西主要是生成pdf文
件,好像也没有读取的方法(生成和读取难道是不相干的吗?),于是又在论坛一阵狂搜,发现有仁兄跟我类似的需要,高人指点他去研究poppler,我放
狗一搜,找到poppler的介绍页面,看到“The documentation is actually missing, help
wanted ”,心里就拔凉拔凉滴,俺是新手,有文档都要尚且研究半天,何况没文档啊,那是神人做的事啊,各位大侠,能否给指点一条明路,已经
折腾我好几天了,还没搞定?我只是想用python读取一下pdf文件的文本内容啊。
--~--~---------~--~----~------------~-------~--~----~
来自: `python-cn`:CPyUG ~ 华蟒用户组 | 发言:python-cn@...
退订: http://tinyurl.com/45a9tb /针对163/qq邮箱:http://tinyurl.com/4dg6hc
详情: http://groups.google.com/group/python-cn
严正: 理解列表! 智慧提问! http://wiki.woodpecker.org.cn/moin/AskForHelp
-~----------~----~----~----~------~----~------~--~---
1,poppler-utils 里边有 pdftotext、pdftohtml、pdfinfo 等工具用于提取 pdf 内容 。
下载了pypoppler-0.10.0.tar.gz,发现里面的文件没有setup.py,不能用python
setup.py install,而是linux下的install-sh的安装方式,我的是window xp系统,应该怎么安装呢?
安装 mingw、msys、python-dev,gtk-dev,pygtk-dev
不过应该还是 os.popen 调用 pdftotext.exe 简单
2,PDFminer比pdftoexe强太多了,正是我想要的。
----------------------------------------------------------------------------
最新免费的python开源项目
1、用python来做一个蜘蛛程序抓取网页,有了urllib库,真是太简单了。另外网页的解析也有相应的库sgmllib可以使用。不过还不知道python的sgmllib有没有类似 Jtidy 的规范html代码的功能,或者是有另外的库来干这事。
比较有名气的:
Harvest Man——http://code.google.com/p/harvestman-crawler/
HarvestMan is a modular, extensible and flexible web crawler program cum framework written in pure Python. HarvestMan can be used to download files from websites according to a number of customized rules and constraints. It can be used to find information from websites matching keywords or regular expressions.
The final goal of the project is to develop a full-fledged semantic personal data mining platform which can be used to retrieve information from the Internet in a highly customizable manner, so that one can fetch information from the web the way he wants it, when he wants it. For this, HarvestMan project will provide support for Web 2.0 and 3.0 technologies such as RSS, RDF, OWL etc. (这个目标还真是大啊,要是真的可以做到那就真是牛逼。)
另外,还有一些小的项目,用Google code或者 sourceforge.net搜索,就可以找到。
举个例子:
http://code.google.com/p/supercrawler/
2、对pdf文件的操作,C++,c#和java都有一些开源的类库可以使用。比如:pdflib,itext,pdfclown,pdfbox.
他们可以实现pdf文件的解析,并实现pdf与rtf html xml等格式之间的相互转换。
今天发现了一个可以操作pdf的python库: pdfminer.
http://code.google.com/p/pdfminerr/
不知道有没有其他的库。希望高手补充。
3、有了pdf的操作库,可以轻松实现对pdf文件内容的有目的的抽取。
这里有一个抽取文献的参考文献的例子:
pdf2ref
http://code.google.com/p/pdftoref/
This project aims to develop an efficient rule based extractor of entries of references, located in scientific articles in English language. The application takes a pdf file or a directory of pdf and then returns an html file, containing the list of all entries with their respective title. Moreover the title of the article cited is searched through Google Web Service to get the URL that identifying the article on the web. If the URL provides on the page a Bibtex entry, this will appear in the html output under the relative entries, stolen from some typical site like citeseer, ieeexlpore etc. The application does not make search over pdf file based on images.
洋文,发现这东西只能分割合并pdf文件,读取pdf文件的作者、标题等信息。然后又琢磨ReportLab,硬啃洋文,发现这东西主要是生成pdf文
件,好像也没有读取的方法(生成和读取难道是不相干的吗?),于是又在论坛一阵狂搜,发现有仁兄跟我类似的需要,高人指点他去研究poppler,我放
狗一搜,找到poppler的介绍页面,看到“The documentation is actually missing, help
wanted ”,心里就拔凉拔凉滴,俺是新手,有文档都要尚且研究半天,何况没文档啊,那是神人做的事啊,各位大侠,能否给指点一条明路,已经
折腾我好几天了,还没搞定?我只是想用python读取一下pdf文件的文本内容啊。
--~--~---------~--~----~------------~-------~--~----~
来自: `python-cn`:CPyUG ~ 华蟒用户组 | 发言:python-cn@...
退订: http://tinyurl.com/45a9tb /针对163/qq邮箱:http://tinyurl.com/4dg6hc
详情: http://groups.google.com/group/python-cn
严正: 理解列表! 智慧提问! http://wiki.woodpecker.org.cn/moin/AskForHelp
-~----------~----~----~----~------~----~------~--~---
1,poppler-utils 里边有 pdftotext、pdftohtml、pdfinfo 等工具用于提取 pdf 内容 。
下载了pypoppler-0.10.0.tar.gz,发现里面的文件没有setup.py,不能用python
setup.py install,而是linux下的install-sh的安装方式,我的是window xp系统,应该怎么安装呢?
安装 mingw、msys、python-dev,gtk-dev,pygtk-dev
不过应该还是 os.popen 调用 pdftotext.exe 简单
2,PDFminer比pdftoexe强太多了,正是我想要的。
----------------------------------------------------------------------------
最新免费的python开源项目
1、用python来做一个蜘蛛程序抓取网页,有了urllib库,真是太简单了。另外网页的解析也有相应的库sgmllib可以使用。不过还不知道python的sgmllib有没有类似 Jtidy 的规范html代码的功能,或者是有另外的库来干这事。
比较有名气的:
Harvest Man——http://code.google.com/p/harvestman-crawler/
HarvestMan is a modular, extensible and flexible web crawler program cum framework written in pure Python. HarvestMan can be used to download files from websites according to a number of customized rules and constraints. It can be used to find information from websites matching keywords or regular expressions.
The final goal of the project is to develop a full-fledged semantic personal data mining platform which can be used to retrieve information from the Internet in a highly customizable manner, so that one can fetch information from the web the way he wants it, when he wants it. For this, HarvestMan project will provide support for Web 2.0 and 3.0 technologies such as RSS, RDF, OWL etc. (这个目标还真是大啊,要是真的可以做到那就真是牛逼。)
另外,还有一些小的项目,用Google code或者 sourceforge.net搜索,就可以找到。
举个例子:
http://code.google.com/p/supercrawler/
2、对pdf文件的操作,C++,c#和java都有一些开源的类库可以使用。比如:pdflib,itext,pdfclown,pdfbox.
他们可以实现pdf文件的解析,并实现pdf与rtf html xml等格式之间的相互转换。
今天发现了一个可以操作pdf的python库: pdfminer.
http://code.google.com/p/pdfminerr/
不知道有没有其他的库。希望高手补充。
3、有了pdf的操作库,可以轻松实现对pdf文件内容的有目的的抽取。
这里有一个抽取文献的参考文献的例子:
pdf2ref
http://code.google.com/p/pdftoref/
This project aims to develop an efficient rule based extractor of entries of references, located in scientific articles in English language. The application takes a pdf file or a directory of pdf and then returns an html file, containing the list of all entries with their respective title. Moreover the title of the article cited is searched through Google Web Service to get the URL that identifying the article on the web. If the URL provides on the page a Bibtex entry, this will appear in the html output under the relative entries, stolen from some typical site like citeseer, ieeexlpore etc. The application does not make search over pdf file based on images.
评论
1 楼
jimmyxt
2009-11-03
你好,我最近也在研究python 搜索 pdf文档 内容的方法,一直没有找到。
而你这篇文章也没有写具体的方法,所以请你能详细的写一下方法,
万分感谢。
而你这篇文章也没有写具体的方法,所以请你能详细的写一下方法,
万分感谢。
发表评论
-
Django之Apache/mod_python安装及HelloWorld
2009-11-12 11:31 1808from: http://hideto.iteye.com/b ... -
一个python写的简单的代理服务器
2009-08-02 22:14 4543from: http://dream-people.iteye ... -
Python模块包中__init__.py文件的作用
2009-07-29 17:03 1270from:http://www.iteye.com/topic ... -
Google App Engine 开发人员指南
2009-07-27 13:31 926http://code.google.com/intl/zh- ... -
正则表达式
2009-07-27 12:28 904from: http://jamesblog.iteye.co ... -
Chinese Python User Group 中文Python用户组
2009-07-24 15:17 1132http://groups.google.com/group/ ... -
开心网查看朋友果实的小程序
2009-07-23 17:16 1406#!/usr/bin/env python # -* ... -
html 2 txt (完善中)
2009-07-23 17:01 1032import re filename=raw_input( ... -
英汉字典(有道)
2009-07-23 16:59 1230# fileName : dict.py import re ... -
Python学习计划
2009-07-22 10:37 3092from:http://jythoner.iteye.com/ ... -
python 资料共享(from javaeye )
2009-07-22 10:33 1004http://onlypython.group.iteye.c ... -
Python中的全局变量
2009-07-21 14:34 1158全局变量不符合参数传递的精神,所以,平时我很少使用,除非定义常 ... -
python教程:几行代码搞定python 设计模式
2009-07-21 13:55 1351# #!/usr/bin/env python # # ... -
python教程:异常处理
2009-07-21 13:52 1159#例子1 1. #coding:utf-8 2. ... -
PDFMiner
2009-07-20 10:07 6187PDFMiner Python PDF parse ... -
数据库 API 参考
2009-07-02 09:19 817http://www.woodpecker.org.cn/ob ... -
python编程八荣八耻
2009-07-01 16:20 1032python编程八荣八耻 以动手实践为荣, 以只看不练为耻; ... -
python中cx_Oracle模块安装遇到的问题与解决方法
2009-06-26 09:59 7856--============================= ... -
python教程:分支、循环
2009-06-23 15:36 3443讲程序设计,不得不讲到顺序、分支、循环。 顺序就是从上到下运行 ... -
python 实践
2009-06-18 15:58 919http://www.iteye.com/topic/1011 ...
相关推荐
Python提供了众多的PDF支持库,本篇文章主要介绍了Python处理PDF及生成多层PDF实例代码,这样就能够实现图片扫描上来的内容也可以进行内容搜索的目标
PyPDF2库是一个功能强大的Python库,可用于处理PDF文件。其主要功能之一是将PDF文件...PyPDF2库还支持对PDF文件进行页面旋转、加密和解密操作,使用户可以更灵活地管理和保护PDF文件内容。是一个多功能且易于使用的工具
一旦你掌握了编程的基本知识,你就会创建一个Python程序,它可以毫不费力地实现有用和令人印象深刻的自动化壮举:-在一个文件中或多个文件中搜索文本-创建、更新、移动和重命名文件和文件夹-搜索Web并下载在线内容-...
PYTHON本地文件搜索整理[整理].pdf
python读取robot⽂件内容_RobotFrameWork读取excel等⽂件 数据 ⼀、读取excel⽂件 1、安装robotframework-ExcelLibrary⽂件 由于该库只⽀持到python2.7,因此不能使⽤python3的pip安装此⽂件,需要先下载该库:robot...
这是DS小龙哥编写整理的,Python3入门指南.pdf,总共10章,可以当做入门书籍、平时的参考书籍,文中代码都可以复制粘贴。后续资源包会持续更新。 这是书籍的目录 编辑: DS小龙哥 1 Python3入门指南 1 一、 Python...
内容简介 · · · · · · 本书以培养读者以计算机科学家一样的思维方式来理解Python语言编程。贯穿全书的主体是如何思考、设计、开发的方法,而具体的编程语言,只是提供了一个具体场景方便介绍的媒介。 全书共...
要将PPT文件转换为PDF文件,你可以按照以下几种方法进行操作: 1. 使用Microsoft PowerPoint软件: - 打开要转换的PPT文件。 - 在菜单栏中选择“文件” -> “另存为” -> 选择PDF格式 -> 点击“保存”按钮即可将...
Awesome Python环境管理开发包和依赖分发构建工具文件操作日期和时间文本处理自然语言处理文档配置命令行工具图像处理音频视频地理位置HTTP数据库数据库驱动ORMWeb框架CMSRESTful API身份认证模板引擎事件和任务队列...
Python 程序可以搜索文件和目录树,可 以运行其他程序,用进程或线程进行并行处理等等。 Python 提供了标准 Internet 模块,使 Python 能够广泛地在多种网络任务中发挥作用, 无论是在服务器端还是在客户端都是如此...
原书名: Core Python Programming (2nd Edition) 原出版社: Prentice Hall PTR 作者: (美)Wesley J. Chun 译者: 宋吉广 出版社:人民邮电出版社 ISBN:9787115178503 上架时间:2008-6-23 出版日期:2008 ...
工作和生活中有时会遇到将多个pdf文件,合并成一个大文件的情况。例如,扫描时,普通扫描仪或打印机一页生成一个PDF,而一份资料实际多页。Adobe的收费版有合并功能,我们可以自己动手解决。根据网上搜索了几个合并...
还介绍了计算复杂性的概念,演示了可以有效计算和不能有效计算的内容,以便程序员可以对使用的算法做出明智的判断。本书假定您具有一些计算机编程的基本经验,并且熟悉面向对象的语言,但不一定需要使用Python。 ...
大家好,今天分享一个实用的办公脚本:将多个PDF合并为一个PDF,例如我手上现在有如下3个PDF分册,需要整合成一个完整的PDF ... # 设置存放多个pdf文件的文件夹 dir_path = r'C:\Scientific Rese
2.21 动态地改变Python搜索路径 89 2.22 计算目录间的相对路径 91 2.23 跨平台地读取无缓存的字符 93 2.24 在Mac OS X平台上统计PDF文档的页数 94 2.25 在Windows平台上修改文件属性 95 2.26 从OpenOffice.org...
原书名: Core Python Programming (2nd Edition) 原出版社: Prentice Hall PTR 作者: (美)Wesley J. Chun 译者: 宋吉广 出版社:人民邮电出版社 ISBN:9787115178503 上架时间:2008-6-23 出版日期:2008 ...
因为此文档是可复制、可搜索的,所以方便做笔记(推荐使用win10自带的Edge浏览器,有文本高亮和注释功能)。 文件太大了,上传受限,只能分卷压缩上传了。
Python小工具:据说这是搜索文件最快的工具!没有之一!一起感受下......
文档文本搜索 使用python在doc、xls、pdf、txt文件中搜索文本 仅支持windows,使用win32com、pyExcelerator、pdfminer等多种python模块 FindInDoc.py为主要代码,其他用于测试
文件内容搜索工具(多线程版),支持常用的PDF,XLS,XLSX,DOCX,TXT等文档内容搜索,办工必备神器。采用PYTHON开发。