Python使用pdfplumber直接提取PDF文本内容_python pdfplumber 提取目录-程序员宅基地

技术标签: python  后端  Python  开发语言  

前提:提取文本内容的文件必须是应用服务生成PDF文件,而非扫描的pdf文档,当前pdfplumber的版本为0.5.28

第一步:在服务应用的终端中使用下述命令安装pdfplumber包

poetry add pdfplumber

 在输入了上述命令后,会在终端中弹出下述相关安装信息

PS D:\Code\python\poetry-demo> poetry add pdfplumber
Using version ^0.5.28 for pdfplumber

Updating dependencies
Resolving dependencies...

Writing lock file

Package operations: 7 installs, 0 updates, 0 removals

  • Installing chardet (4.0.0)
  • Installing pycryptodome (3.10.1)
  • Installing sortedcontainers (2.4.0)
  • Installing pdfminer.six (20200517)
  • Installing pillow (8.3.1)
  • Installing wand (0.6.7)
  • Installing pdfplumber (0.5.28)

 同时可以看到在对应服务的site-packages目录下会新增下述几个目录:

pdfminer
pdfminer.six-20200517.dist-info
pdfplumber
pdfplumber-0.5.28.d
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/y_bccl27/article/details/119773638

智能推荐

国产麒麟系统下打包electron+vue项目(AppImage、deb)

国产麒麟系统下打包electron+vue项目(AppImage、deb)

使用RTSP将笔记本摄像头的视频流推到开发板

RTSP(实时流传输协议)是一种网络协议,用于控制音视频数据的实时流传输,常用于远程监控和视频会议。

laravel rabbitmq 队列

解决方案,这是一个来自.env文件的问题。将登录详细信息的名称从RABBITMQ_LOGIN更改为RABBITMQ_USER。

window11, WSL, Ubuntu 20.04 安装 tensorflow-gpu_windows11安装ubuntu虚拟机和tensoflow-gpu-程序员宅基地

文章浏览阅读855次。window11 wsl ubuntu20.4 配置深度学习GPU环境_windows11安装ubuntu虚拟机和tensoflow-gpu

postman 中 将操作 反向生成 curl 命令_postman反向生成代码-程序员宅基地

文章浏览阅读1.1w次。执行操作完后,点击Code:选择cURL:生成成功:当然还可以反向生成很多其他语言的代码:例如java:例如js:_postman反向生成代码

C# 写一个简单的TXT小说阅读器_c#小说阅读器-程序员宅基地

文章浏览阅读907次。上班的时候看小说不是要上那些网站看,就是要下载txt用那些文本阅读器看,很是麻烦。就想做一个简单的txt小说阅读器。要求不高,只要能打开txt文档并显示章节目录,并且能够点击跳转至章节除即可。_c#小说阅读器

随便推点

体育赛事编排管理系统的设计与实现 毕设源码59094_比赛编排源代码-程序员宅基地

文章浏览阅读484次。体育赛事编排管理系统主要功能模块包括学院名称、单人赛事、报名信息(单人)、赛事类别、赛事安排(单人)、团体赛事、报名信息(团体)、赛事安排(团队)、赛事报告等信息维护,采取面对对象的开发模式进行软件的开发和硬体的架设,能很好的满足实际使用的需求,完善了对应的软体架设以及程序编码的工作,采取MySQL作为后台数据的主要存储单元,采用Java技术、Ajax技术进行业务系统的编码及其开发,实现了本系统的全部功能。本次报告,首先分析了研究的背景、作用、意义,为研究工作的合理性打下了基础_比赛编排源代码

编译iOS arm64 armv7 armv7s x86-64的第三方静态库_xcode 编译arm64 静态库-程序员宅基地

文章浏览阅读2.8k次。今日有幸得到项目经理的召唤,叫我编译一个既支持arm64 armv7 armv7s也支持虚拟器的静态库。泪崩了,我以前一直都没有搞过这个。后来上网查了一些资料得到初步的聊解。首先对名词进行解析一下。【armv7】iPhone 4/iPhone 4S【armv7s】iPhone 5/iPhone 5C【arm64】iPhone 5S_xcode 编译arm64 静态库

linux查光纤存储,CentOS 6.5光纤HBA配置和存储识别-程序员宅基地

文章浏览阅读1k次。设备 IBM V3700Brocade 300Qlogic 2560Dell R720存储已划分LUN主机已新增主机,主机和LUN映射已作 存储多路径设备需要的软件支持 默认情况下CenOS6.5最小化安装镜像已包含[root@localhost ~]# rpm -qa |grep device-mapperdevice-mapper-libs-1.02.79-8.el6.x86_64device..._linux 6.5 hba 在线识别存储

Vue简单示例——weex跨平台解决方案-程序员宅基地

文章浏览阅读4k次,点赞27次,收藏41次。Vue简单实例——创建一个基本的weex应用_weex

windows mysql开启远程连接-程序员宅基地

文章浏览阅读4.8k次,点赞2次,收藏7次。关于虚拟机开启远程端口_windows mysql开启远程连接

【OpenCV】摄像机标定+畸变校正_opencv相机畸变标定软件-程序员宅基地

文章浏览阅读7.7w次,点赞73次,收藏590次。通过MATLAB和OpenCV对摄像机进行标定,附程序!_opencv相机畸变标定软件