python分析pdf年报_如何用Python从大量pdf 中提取表格中的数据进行分析?-程序员宅基地

技术标签: python分析pdf年报  

根据一楼答案@森林的建议 说说我的处理经验

我也是借助开源项目tabula,不得不说tabula的功能确实很强大。

我是用Python来处理数据,但是没有用tabula-py,因为表格跨列跨行等情况比较复杂的时候,tabula输出的数据并不能直接拿来用,就是会有错乱的情况。tabula-py只是对tabula-java的一个简易封装,实际上等同于tabula-java。简单贴个tabula适用的表格,就是很听话规则的这种:常规表格

而且,我的pdf中有部分黑色的背景块会严重干扰到正常格式的输出。所以呢,我自己写了一堆代码来恢复错乱的表格数据,效果还不错,数据可以输出到json或csv或excel。代码根据talula的输出数据特性,尽量保证了通用性最大化。文档的格式可以自定义。

看看面对复杂的表格:跨行跨列多的分不清楚~

输出结果我就直接用json来展示了,如果不太理解,就当是乱了~乱了不是我想要的吧:-)

[[["航路、航线代号、导航点名\r称、坐标", "磁航迹\r距离(千米/\r海里)", "最低\r飞行高度\r(米)", "宽度\r(千米)", "巡航高度层\r方向", "管制单位"],

["G212(实施 RNAV2 运行)", "", "", "", "", ""],

["▲ARGUK\rN47° 53.0′E134° 39.5′\r▲海青 NDB (IJ)\rN47° 52.2′E134° 38.8′\r▲P164\rN47° 38.5'E133° 42.9'\r▲P394\rN47°11.7'E131° 54.2

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/weixin_39606244/article/details/110270575

智能推荐

【Pandas数据处理100例】(十八):Pandas的shift数据位移操作_pandas 列为指定条件位移-程序员宅基地

文章浏览阅读273次。大家好,我是阿光。本专栏整理了《Pandas数据分析处理》,内包含了各种常见的数据处理,以及Pandas内置函数的使用方法,帮助我们快速便捷的处理表格数据。正在更新中~ 我的项目环境:该函数可以经过偏移后的数据测试数据如下:shift函数的默认偏移量是1,就是会将数据向下偏移一位,第一个位置缺失由于没有上一个元素,所以为空。如果我们要向上移动元素,只需要将periods设置为负值,大小就是偏移量。我们在偏移过程中,靠近上方或者下方的数据会出现空值,所以我们可以使用fill_value这个参数_pandas 列为指定条件位移

前端常见的十种布局_前端布局的几种方式-程序员宅基地

文章浏览阅读1.9k次。前端布局常见的有很多种,不同的应用场景有不同的布局方式,下面就来简单介绍一下吧。静态布局、浮动布局、定位布局、栅格布局、table布局、弹性(flex)布局、圣杯布局自适应布局、流式布局、响应式布局_前端布局的几种方式

kotlin面试题android最新面试题及答案-程序员宅基地

文章浏览阅读916次,点赞21次,收藏22次。作为一名从事Android的开发者,很多人最近都在和我吐槽Android是不是快要凉了?而在我看来这正是市场成熟的表现,所有的市场都是温水煮青蛙,永远会淘汰掉不愿意学习改变,安于现状的那批人,希望所有的人能在大浪淘沙中留下来,因为对于市场的逐渐成熟,平凡并不是我们唯一的答案!GitHub地址[外链图片转存中…(img-zC3l0rPJ-1710283715230)]

计算机网络(王道考研)笔记个人整理——第四章-程序员宅基地

文章浏览阅读977次,点赞6次,收藏15次。3.组播(多播):当网络中的某些用户需要特定数据时,组播数据发送者仅发送一次数据,借助组播路由协议为组播数据包建立组播分发树,被传递的数据到达距离用户端尽可能近的节点后才开始复制和分发,是一点对多点的传输方式。转发表由路由表得来,可以用软件实现,也可以用特殊硬件实现,转发表必须包含完成转发功能所必须的信息,在转发表的每一行必须包含从要到达的目的网络到输出端口和某些MAC地址信息的映射。对地址为x的相邻路由器发来的RIP报文,修改此报文中的所有项目,把”下一跳“字段中的地址改为x,并把所有”距离“字段+1。

UVa 445 Marvelous Mazes(非凡的迷宫)_marvelous mazes uva中文-程序员宅基地

文章浏览阅读946次。Marvelous Mazes Your mission, if you decide to accept it, is to create a maze drawing program. A maze will consist of the alphabetic characters A-Z, * (asterisk), and spaces.Input an_marvelous mazes uva中文

MyBatis插入Insert、InsertSelective的不同以及使用心得_mybatis insertselective-程序员宅基地

文章浏览阅读7.9k次。逆向自动生成的mybatis对应配置Mapper文件里面,有两个方法,分别为insert和insertSelective。这两个方法均是插入对象的方法。为什么会有两个插入方法呢?这里说一下两者的区别。_mybatis insertselective

随便推点

未能对git remote进行身份验证-程序员宅基地

文章浏览阅读7.5k次,点赞2次,收藏10次。1.错误信息2.原因错误原因的出现其实就是因为你的gitee密码更改了,但是没用同步到Windows凭据管理器上,所以导致报这个错误3.首先点击控制面板找到用户账户,操作如下图所示

【学习随笔】图灵-计算机器与人工智能_can machines think-程序员宅基地

文章浏览阅读1k次。思维导图模仿游戏 作者首先提出了"Can machines think?" (“机器可以思考吗?”)这个问题。相比与尝试定义“机器”“思考”,作者提出了“模仿游戏”。 一个男人(A),一个女人(B)和一个可以是任意性别的询问者(C),A模仿B来误导C的判断,C通过询问AB判断具体两人性别。 从而提出"What will happen when a machine takes the part of A in this game?"(“当让一个机器..._can machines think

【kubernetes系列】Kubernetes之configMap_configmap挂载配置文件-程序员宅基地

文章浏览阅读1.4k次。工作中,在几乎所有的应用开发中,都会涉及到配置文件的变更,比如服务需要配置MySQL、Redis等相关信息。而业务上线一般要经历开发环境、测试环境、预发布环境只到最终的线上环境,每一个环境一般都需要其独立的配置。如果我们不能很好的管理这些配置文件,运维工作将顿时变的无比的繁琐而且很容易出错。工作中最佳实践是将应用所需的配置信息于程序进行分离,这样可以使得应用程序被更好的复用,如将应用打包为容器镜像后,可以通过环境变量或外挂文件的方式在创建容器时进行配置注入。_configmap挂载配置文件

uniapp 系统广播、自定义广播插件 Ba-Broadcast_声音提示、震动提示、语音播报 ba-beep-程序员宅基地

文章浏览阅读2.4k次。Ba-Broadcast 是一款可监听系统广播的uniapp插件,如息屏、亮屏、声音、电量等等。支持监听系统广播;支持自定义广播;支持发送广播。_声音提示、震动提示、语音播报 ba-beep

什么是解耦-程序员宅基地

文章浏览阅读3.9k次。解耦(Decoupling)是指通过降低代码之间的依赖性,减少模块或组件之间的耦合程度。在软件开发中,解耦是一种良好的设计原则,它可以提高代码的可维护性、可测试性和可扩展性。当两个模块或组件之间高度耦合时,它们的改动往往会相互影响,一个模块的修改可能会导致其他模块的变动,这增加了系统的复杂性和风险。_解耦

2022年自学Java最新学习路线(建议观看)_java学习路线-程序员宅基地

文章浏览阅读3.5k次,点赞7次,收藏29次。给大家总结了一下2022年Java最新的学习路线图,跟着这个技术栈学习Java,全部内容都熟练掌握,至少可以找到一份15K的工作。在学习过程中困难会非常多,需要用很有技巧的学习方法和耐心。一部分:入门基础二部分:Java高级技术三部分:前端技术四部分:Javaweb五部分:企业主流框架六部分:项目阶段七部分:企业专题相信今年学习Java的都是从零基础开始的,所以一定切记学习Java要系统学习,严格的跟着教程大纲走_java学习路线

推荐文章

热门文章

相关标签