用Python实现数据筛选与匹配_python筛选符合条件的parquet数据-程序员宅基地

技术标签: 键值对  python  字典  后端  Python  开发语言  

下面我们将学习两个项目案例代码,分别解决Excel常见场景中的数据筛选问题和数据匹配问题。

数据筛选要求我们在表中筛选出符合条件的数据。
数据匹配需要我们在多个表之间匹配相关的数据。

与之前一样,完成项目问题的代码,需要我们先分析数据筛选数据匹配的需求,再找到对应知识点,确定代码的执行顺序,从而实现项目代码。

案例一:数据筛选

这个案例需要我们筛选出迟到人员的信息,来具体看看。

在【10月考勤统计.xlsx】工作簿中,保存了公司一百名员工的迟到信息,这些信息包含了迟到时间迟到次数

公司规定,迟到时间超过45分钟且迟到过3次以上的员工记为考勤不合格,需要扣除300的考勤保证金。

之前的同事需要把筛选后的结果保存为【10月迟到人员信息.xlsx】,并将整理后的信息上报给领导。

那么如何用代码实现这个场景呢?

在编写代码之前,我们要先明确任务需求。

根据公司的规定,筛选出【10月考勤统计.xlsx】中迟到时间大于45分钟并且迟到次数超过3次以上的员工信息,将迟到人员信息打印出来后再存入新工作簿【10月迟到人员信息.xlsx】中。

代码实现:

from openpyxl import load_workbook, Workbook

# 打开【10月考勤统计.xlsx】工作簿
wb = load_workbook('./material/10月考勤统计.xlsx')
# 获取活动工作表
ws = wb.active
print(ws)
print(ws[1])
print('----------------')
# 获取表头
late_header = []
for cell in ws[1]:
    late_header.append(cell.value)
    print(cell.value)

# 新建工作簿
new_wb = Workbook()
# 获取新工作簿中的工作表
new_ws = new_wb.active

# 将表头写入新工作簿的工作表中
new_ws.append(late_header)

# 从第二行开始遍历表格
for row in ws.iter_rows(min_row=2, values_only=True):
    # 取出姓名,迟到时间和迟到次数
    name = row[1]
    time = row[3]
    number = row[-1]
    # 判断是否迟到
    if time > 45 and number > 3:
        print('{}迟到了{}分钟,迟到了{}次'.format(name, time, number))
        # 将迟到人员信息写入新工作簿的工作表中
        new_ws.append(row)

# 将新工作簿保存为【10月迟到人员信息.xlsx】
new_wb.save('./material/10月迟到人员信息.xlsx')

 运行结果:

根据任务需求,我们需要获取两部分数据:表头数据和表头以外的所有数据。

你可能会比较疑惑,为什么要单独获取表头数据呢?

由于任务需要我们生成新的工作簿【10月迟到人员信息.xlsx】,新工作簿中的表头与【10月考勤统计.xlsx】相同,所以我们需要获取到表头的数据以便后续使用。

使用数据

我们需要在这一步实现数据筛选功能,通过分析任务需求可以总结出三个筛选条件:

1)迟到时间大于45分钟。
2)迟到次数大于3次。
3)同时满足上面两个条件。

明确了筛选条件后,就可以借助条件判断语句比较运算符成员运算符逻辑运算符等Python基础知识,实现对于数据的筛选,即将上面得到的筛选条件用Python语言实现出来。

假设我们用time来代表迟到时间,用number代表迟到次数,那么筛选条件就可以写为:
if time > 45 and number > 3:

数据输出

完成筛选后,我们需要根据实际需求将筛选结果输出到终端,或将筛选结果保存起来。

本次任务要求我们将筛选后的员工信息打印出来,并且存储到【10月迟到人员信息.xlsx】中。

如果需要获取工作簿中满足某些条件的数据,这种场景就可以被归类为数据筛选场景。

处理该场景时,可以按照获取数据使用数据数据输出这三个步骤来处理。

首先是获取数据,使用上节课学习过的表格读写的相关知识,根据任务需求,确定要获取的是零散的单元格,是单行/单列,还是多行/多列的数据。

数据筛选的关键落在了筛选二字上,我们可以在使用数据这一步中实现筛选功能。

在这一步,要仔细理解任务需求,明确筛选条件,然后根据实际情况,选择Python基础语法的相关知识(条件判断语句,比较运算符,成员运算符和逻辑运算符),构造筛选条件。

最后是数据输出部分,根据实际需要输出筛选结果,或将筛选结果保存起来。总结起来可以分为三类:

1)将筛选的结果存入学过的数据结构里,比如:列表,元组或字典。
2)将筛选的结果存入文件中。
3)将筛选的结果打印出来。

案例二:数据匹配

这个案例需要我们匹配两张表格中指定的迟到次数,先来看看案例场景。

现有两张表格,【10月考勤统计.xlsx】中记录了员工十月份的迟到次数数据,这份表格是公司行政手动记录的。

【迟到次数月度统计(10月更新).xlsx】中按月记录了员工每月的迟到次数数据,这份表格是由公司的考勤系统自动生成的。

两份表格中的数据可以通过工号一一对应。

现需要核对两张表格中10月迟到次数是否匹配(即两表中相同工号在十月份的迟到次数是否一致),并在终端提醒相关人员去核查不匹配的情况。

 代码实现:

from openpyxl import load_workbook

# 打开工作簿【10月考勤统计.xlsx】,获取活动工作表
wb = load_workbook('./material/10月考勤统计.xlsx')
ws = wb.active

# 创建迟到人员字典
info_dict = {}

# 循环读取除表头外的表格数据
for row in ws.iter_rows(min_row=2, values_only=True):
    # 取出员工工号
    staff_id = row[0]
    # 取出迟到次数
    staff_late = row[-1]
    # 将信息添加入字典,字典格式为{'员工工号': '迟到次数'}
    info_dict[staff_id] = staff_late

# 打开工作簿【迟到次数月度统计(10月更新).xlsx】,获取活动工作表
monthly_wb = load_workbook('./material/迟到次数月度统计(10月更新).xlsx')
monthly_ws = monthly_wb.active

# 循环读取出表头外的表格数据
for monthly_row in monthly_ws.iter_rows(min_row=3, max_col=13, values_only=True):
    # 取出员工工号
    member_id = monthly_row[0]
    # 取出十一月份的迟到次数
    member_late = monthly_row[-1]
    # 匹配迟到次数是否相等
    if member_late != info_dict[member_id]:
        print('工号{}迟到情况不匹配,请核查后更新'.format(member_id))

 运行结果:

为什么会选择存储到字典中呢?

因为字典可以很好地体现出工号迟到次数的对应关系,即{'工号': '迟到次数'}

然后把【迟到次数月度统计(10月更新).xlsx】中的迟到次数,与字典中存储的迟到次数进行匹配,再判断相同工号对应的迟到次数是否相同。

数据筛选总结

当我们遇到一个任务,需要我们根据条件挑选出一些数据,那么我们就可以将其归类为数据筛选的场景,我们可以这样做。

获取数据时,使用Excel文件读写的相关知识来获取数据;

使用数据时,要先明确筛选条件,判断一共有几个筛选条件,然后再借助Python基础语法中的相关知识,构造筛选条件。

值得注意的是,在你以后的工作场景中,可能还会需要判断条件的先后顺序。因为有时会出现先满足某个条件,在这个条件前提下,再去满足其他条件的情况。这时,就需要使用嵌套的相关知识来构造条件的先后顺序。

最后的数据输出,需要根据任务需求,在终端输出筛选结果或将筛选结果保存起来。

数据匹配总结

当任务需要我们关联不同表格中的数据,我们可以把这样的场景归类为数据匹配场景。

获取数据时,至少要获取到能够连接表格的数据和需要匹配的数据。

使用数据时,先将获取到的某一表格中的数据,按照需要存储到字典里,将可以连接表格的数据作为键,要匹配的数据作为值;然后再将另一个表格中的数据和字典中的数据根据表之间的关系链接起来,实现匹配逻辑。

最后的数据输出部分,还是要根据任务需求,在终端输出匹配结果或将匹配结果保存起来。

用思维导图总结一下:

 

 

 

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/mez_Blog/article/details/122759563

智能推荐

DSP之TMS320F28335学习总结与笔记(二)————ADC模块_dsp2833x_adc.c-程序员宅基地

文章浏览阅读1.2w次,点赞13次,收藏138次。F28335 ADC模块ADC转换模块A/D转换器(ADC)将模拟量转换为数字量通常要经过四个步骤:采样、保持、量化和编码。采样:将一个时间上连续变化的模拟量转化为时间上离散变化的模拟量。保持:将采样结果存储起来,直到下次采样,这个过程称作保持。一般,采样器和保持电路一起总称为采样保持电路。量化:将采样电平归化为与之接近的离散数字电平,这个过程称作量化。ADC关键指标分辨率:指数字量变化一个最小量时模拟信号的变化量,定义为满刻度与2^n的比值。分辨率又称为精度,通常以数字信号的位_dsp2833x_adc.c

V-rep学习笔记:机器人路径规划2-程序员宅基地

文章浏览阅读1.8k次。   路径规划问题是机器人学研究的一个重要领域,它是指给定操作环境以及起始和目标的位置姿态,要求选择一条从起始点到目标点的路径,使运动物体(移动机器人或机械臂)能安全、无碰撞地通过所有的障碍物而达到目标位置。路径规划从研究对象上可分为关节式机械臂和移动机器人。一般来讲前者具有更多的自由度,而后者的作业范围要更大一些,这两类对象具有不同的特点,因此在研究方法上略有不同。在V-rep学习笔记:机器人路..._collision pairs

问题:U8的存货同步到本地时,报“数据库可能存在相同的编码”_数据库可能已经存在相同的编码等-程序员宅基地

文章浏览阅读1.5k次。1.环境:U8与本地某程序。跨服务器、跨数据库。2.问题:U8的存货同步到本地时,报“数据库可能存在相同的编码”。3.原因:在确认了U8程序正常、本地程序正常、U8数据库正常、本地数据库正常、链接服务器正常、触发器本身正常后,回到了问题的本身:为何原来的同步执行正常,但是现在的存货保存却异常,怀疑是最新的存货有问题。所以先停了触发器,然后用U8做了一个存货,正常保存后。启用触发器,直接用刚_数据库可能已经存在相同的编码等

EOS与ESD的区别_eos和esd的区别-程序员宅基地

文章浏览阅读7.9k次。摘要:什么是EOS?EOS与ESD的区别是什么?EOS为ELectrical Over Stress的缩写,指所有的过度电性应力。当外界电流或电压超过器件的最大规范条件时,器件性能会减弱甚至损坏。一、什么是EOS?EOS为ELectrical Over Stress的缩写,指所有的过度电性应力。当外界电流或电压超过器件的最大规范条件时,器件性能会减弱甚至损坏。EOS通常产生于:1.电源(AC/DC) 干扰、电源杂讯和过电压。2.由于测试程序切换(热切换)导致的瞬变电流..._eos和esd的区别

API网关之动态路由_api路由-程序员宅基地

文章浏览阅读1.3k次。AIP网关 动态路由_api路由

强一致性 弱一致性 最终一致性-程序员宅基地

文章浏览阅读4.5k次,点赞4次,收藏22次。在足球比赛里,一个球员在一场比赛中进三个球,称之为帽子戏法(Hat-trick)。在分布式数据系统中,也有一个帽子原理(CAP Theorem),不过此帽子非彼帽子。CAP原理中,有三个要素:一致性(Consistency)可用性(Availability)分区容忍性(Partition tolerance)CAP原理指的是,这三个要素最多只能同时实现两点,不可能三者兼顾。因此在进行分..._强一致性 弱一致性 最终一致性

随便推点

如何检测新移动硬盘--HD Tune Pro硬盘工具_怎么检测移动硬盘是不是新的-程序员宅基地

文章浏览阅读2.8w次,点赞7次,收藏22次。要想检测移动硬盘的读写速度和是否有坏道,可使用HD Tune Pro硬盘工具软件。除了硬盘传输速率、健康状况、温度、随机存取、磁盘错误扫描、文件基准检测等常见功能外,该软件还能检测硬盘的固件版本、序列号、容量、缓存以及当前的Ultra DMA模式等。此外,目前市场上主流的2.5英寸320GB移动硬盘的数据读取速度大多在30MB/s左右;写入速度稍微慢一点,一般在25MB/s左右。..._怎么检测移动硬盘是不是新的

POJ - 2096 Collecting Bugs_poj collecting bugs-程序员宅基地

文章浏览阅读184次。Ivan is fond of collecting. Unlike other people who collect post stamps, coins or other material stuff, he collects software bugs. When Ivan gets a new program, he classifies all possible bugs into n ..._poj collecting bugs

ESP32单片机入门篇-程序员宅基地

文章浏览阅读8.8k次,点赞11次,收藏88次。ESP32单片机是一款基于改进的Tensilica LX6微架构的32位双核处理器 SoC,配备2.4 GHz Wi-Fi和蓝牙功能。由于其低功耗、高速度和广泛的应用适用性而被广泛应用。本文将介绍ESP32单片机的基本概念,开发环境,开发语言和一些注意事项,并提供一些简单的代码例程,以点亮LED灯和控制继电器为例。_esp32

Java WEB开发基础知识-程序员宅基地

文章浏览阅读2.9w次,点赞53次,收藏319次。一、WEB应用程序B/S ( browser/server ,浏览器/服务器)架构基于HTTP传输协议(超文本传输协议,回忆HTML的名字:超文本标记语言)WEB程序必须要运行在web容器上,如Tomcat /Jboss/WebLogic等二、HTTP协议HTTP使用TCP作为它的支撑运输层协议,默认的端口是80(缺省端口)。超文本传输协议(Hypertext Transfer Protocol,..._java web开发

SQL语句操作优先级顺序_inner left优先级-程序员宅基地

文章浏览阅读1.7w次,点赞4次,收藏18次。SQL语句操作优先级顺序原文所在SQL 不同于与其他编程语言的最明显特征是处理代码的顺序。在大数编程语言中,代码按编码顺序被处理,但是在SQL语言中,第一个被处理的子句是FROM子句,尽管SELECT语句第一个出现,但是几乎总是最后被处理。 每个步骤都会产生一个虚拟表,该虚拟表被用作下一个步骤的输入。这些虚拟表对调用者(客户端应用程序或者外部查询)不可用。只是最后一步生成的表才会返回_inner left优先级

C51单片机:点击一次按键,实现LED显示状态的亮灭转变_单片机按键按一次亮一个灯-程序员宅基地

文章浏览阅读9.1k次,点赞3次,收藏30次。#include <REGX52.H>sbit led=P1^0;//p1.0口接ledsbit button=P3^0;//p3.0口接控制int i,j;//整数i,jvoid main( )//主函数{ led=1;//led初始状态 while(1)//循环 { if(button==0)//按下开关 { for(i=0;i<10;i++);//延时去抖 while(button==0);//检测松手 l._单片机按键按一次亮一个灯

推荐文章

热门文章

相关标签