百木园-与人分享,
就是让自己快乐。

Python提取PDF表格及文本!(附源码)

pdf是一种便携式文档格式,由Adobe公司设计。因为不受平台限制,且方便保存和传输,所以pdf非常受欢迎。

目前市场上有很多pdf工具,大部分是阅读类,也有支持对pdf的修改、转换等功能,但这部分工具不少是收费的。但是如果要批量对pdf修改的话还是用代码实现会比较好!

这次介绍一个开源python工具库-pdfplumber,可以方便地获取pdf的各种信息,包括文本、表格、图表、尺寸等。

pdfplumber在github上有英文官方文档,后面我们会捡重点讲解,先看下如何用pdfplumber提取pdf表格?

以NBA 2020-2021 常规赛数据作为范例,pdf表格如下:

 

Python提取PDF表格及文本!(附源码)

来源:https://www.cnblogs.com/python147/p/14468454.html
图文来源于网络,如有侵权请联系删除。

未经允许不得转载:百木园 » Python提取PDF表格及文本!(附源码)

相关推荐

  • 暂无文章