mg4377娱乐娱城官网_mg4377娱乐手机版_www.mg4377.com

行使PDFBox提取PDF文件普通话本,Python批量提取P

时间:2019-06-01 09:51来源:mg4377娱乐手机版
正文实例为我们分享了Python批量提取PDF文件中文本的切实代码,供我们参谋,具体内容如下 Python批量提取PDF文件汉语本的脚本,python提取pdf脚本 正文实例为我们享用了Python批量提取P

正文实例为我们分享了Python批量提取PDF文件中文本的切实代码,供我们参谋,具体内容如下

Python批量提取PDF文件汉语本的脚本,python提取pdf脚本

正文实例为我们享用了Python批量提取PDF文件中文本的实际代码,供我们仿效,具体内容如下

行使PDFBox提取PDF文件普通话本,Python批量提取PDF文件汉语本的本子。率先须要实践命令pip install pdfminer三k来设置管理PDF文件的扩大库。

import os
import sys
import time

pdfs = (pdfs for pdfs in os.listdir('.') if pdfs.endswith('.pdf'))

for pdf1 in pdfs:
 pdf = pdf1.replace(' ', '_').replace('-', '_').replace('&', '_')
 os.rename(pdf1, pdf)
 print('='*30)
 print(pdf)

 txt = pdf[:-4]   '.txt'
 exe = '"'   sys.executable   '" "'
 pdf2txt = os.path.dirname(sys.executable)
 pdf2txt = pdf2txt   '\scripts\pdf2txt.py" -o '
 try:
 #调用命令行工具pdf2txt.py进行转换
 #如果pdf加密过可以改写下面的代码
 #在-o前面使用-P来指定密码
 cmd = exe   pdf2txt   txt   ' '   pdf
 os.popen(cmd)
 #转换需要一定时间,一般小文件2秒钟足够了
 time.sleep(2)
 #输出转换后的文本,前200个字符
 with open(txt, encoding='utf8') as fp:
  print(fp.read(200))
 except:
 pass

来源:python小屋

以上就是本文的全体内容,希望对我们的求学抱有帮忙,也意在大家多多扶助帮客之家。

本文实例为咱们分享了Python批量提取PDF文件中文本的具体代码,供大家参谋,具体内容...

        有时大家须要对PDF文件实行一些管理, 提取文本,合并等. 在此之前大家使用A-PDF Text Extractor无偿工具,为啥不本人写二个啊?
明日大家得以应用PDFBox-0.7.3本条开源类库. 下载解包后引述:

生成PDF的控件多数,但深入分析的不是太多,pdf Toolkit能够,但测试的首先个复杂的pdf就告知错误,并且汉字乱码,只怕应用的版本或利用格局不对。

率先须要试行命令pip install pdfminer三k来设置管理PDF文件的扩展库。

   PDFBox-0.7.3.dll
   IKVM.GNU.Classpath.dll

抚今追昔在此之前运用java调用的Apache名下的pdfBox库很好用,于是就用下载了pdfBox,使用Delphi来调用pdfBox解析pdf文本。

import os
import sys
import time

pdfs = (pdfs for pdfs in os.listdir('.') if pdfs.endswith('.pdf'))

for pdf1 in pdfs:
 pdf = pdf1.replace(' ', '_').replace('-', '_').replace('&', '_')
 os.rename(pdf1, pdf)
 print('='*30)
 print(pdf)

 txt = pdf[:-4]   '.txt'
 exe = '"'   sys.executable   '" "'
 pdf2txt = os.path.dirname(sys.executable)
 pdf2txt = pdf2txt   '\scripts\pdf2txt.py" -o '
 try:
 #调用命令行工具pdf2txt.py进行转换
 #如果pdf加密过可以改写下面的代码
 #在-o前面使用-P来指定密码
 cmd = exe   pdf2txt   txt   ' '   pdf
 os.popen(cmd)
 #转换需要一定时间,一般小文件2秒钟足够了
 time.sleep(2)
 #输出转换后的文本,前200个字符
 with open(txt, encoding='utf8') as fp:
  print(fp.read(200))
 except:
 pass

        新建三个项目,代码相当的粗略:

条件供给:java运营情状

编辑:mg4377娱乐手机版 本文来源:行使PDFBox提取PDF文件普通话本,Python批量提取P

关键词: .NET 3.5 文本 Delphi PDF

  • 上一篇:没有了
  • 下一篇:没有了