python pandas常用函数_python:pandas常用功能函数操作-程序员宅基地

技术标签： python pandas常用函数

一、安装pandas

创建虚拟环境：

#创建虚拟环境

mkvirtualenv -p python3 pandas_env

#进入虚拟环境

workon pandas_env

安装pandas

# 1、安装包

$ pip install pandas

测试

# 2、进入python的交互式界面

$ python -i

# 3、使用Pandas

>>> import pandas as pd

>>> df = pd.DataFrame()

>>> print(df)

# 4、输出结果

Empty DataFrame

Columns: []

Index: []

安装处理excel的xlrd

pip install xlrd

使用pandas读取excel并打印

from pandas import pandas as pd

df = pd.read_excel("C:/Users/zixuan/Desktop/test.xlsx")

print(df)

输出：

name age class sex

0 wzx 25 c g

1 lzq 24 c m

2 jjj 5 c m

excel内容如下：

二、数据结构

pandas的数据结构分为两种： Series(一维数据)与 DataFrame(二维数据)。

维数

名称

描述

Series

带标签的一维同构数组

DataFrame

带标签的，大小可变的，二维异构表格

Pandas 数据结构就像是低维数据的容器。比如，DataFrame 是 Series 的容器，Series 则是标量的容器。使用这种方式，可以在容器中以字典的形式插入或删除对象。

1.DataFrame

在DataFrame中，index是行，columns是列。如上面的例子中，pandas会将第一行的数据当作表头，即列名。从第二行开始，以0为起始，作为DF的行。

DataFrame 的每一列都是一个Series。如：

for col in df.columns:

series = df[col]

print(series)

输出：

0 wzx

1 lzq

2 jjj

Name: name, dtype: object

0 25

1 24

2 5

Name: age, dtype: int64

0 c

1 c

2 c

Name: class, dtype: object

0 g

1 m

2 m

Name: sex, dtype: object

Pandas 所有数据结构的值都是可变的，但数据结构的大小并非都是可变的，比如，Series 的长度不可改变，但 DataFrame 里就可以插入列。

Pandas 里，绝大多数方法都不改变原始的输入数据，而是复制数据，生成新的对象。一般来说，原始输入数据不变更稳妥。

三、DF的操作

一、属性

1.将df转换成数组

df.values

输出：

[['wzx' 25 'c' 'g']

['lzq' 24 'c' 'm']

['jjj' 5 'c' 'm']]

2.查看所有列名

for col in df.columns:

print(col)

输出：

name

age

class

sex

3.查看所有索引

for index in df.index:

print(index)

输出:

4.查看df的形状

df.shape

输出：

(3, 4)

#三行四列，在excel中是四行四列，但第一行在pandas中被视为表头

5.查看df的大小

df.size

输出：

#即一共有12个单元格

6.查看每列的数据类型

df.dtypes

输出：

name object

age int64

class object

sex object

dtype: object

二、行列操作和切片

1.指定某一列作为索引

#将第一列name设置为索引

df.set_index('name',inplace=True)

print(df.index)

输出：

Index(['wzx', 'lzq', 'jjj'], dtype='object', name='name')

2.取指定列的数据

#查看age列

df['age']

#或

df.age

输出：

name

wzx 25

lzq 24

jjj 5

Name: age, dtype: int64

3.取指定行数据(使用loc)

#取索引为wzx的行

df.loc['wzx']

输出：

age 25

class c

sex g

Name: wzx, dtype: object

#取多行数据(索引为wzx lzq)，可将多个索引以列表方式传入

df.loc[['wzx','lzq']]

输出：

age class sex

name

wzx 25 c g

lzq 24 c m

4.取指定行的指定列的数据(即某单元格的数据)

#取索引为wzx的age

df.loc['wzx','age']

输出：

#取索引为wzx lzq的age class

df.loc[['wzx','lzq'],['age','class']]

输出：

age class

name

wzx 25 c

lzq 24 c

注意：loc可传入两个参数，第一个参数作为索引，第二个参数作为列名。如果不传第二个参数，则默认取所有列。

如：

取某个索引的某个列的例子中，字符串'wzx'作为第一个参数，字符串'age'作为第二个参数。

取多个索引的多个列的例子中，数组['wzx','lzq']作为第一个参数，数组['age','class']作为第二个参数。

5.行切片

#取wzx开始到jjj结束的所有行

df.loc['wzx':'jjj']

输出：

age class sex

name

wzx 25 c g

lzq 24 c m

jjj 5 c m

6.列切片

#取age开始到sex结束的所有列

for col in df['age':'sex']:

series = df[col]

print(series)

print(col)

输出：

name

wzx 25

lzq 24

jjj 5

Name: age, dtype: int64

age

name

wzx c

lzq c

jjj c

Name: class, dtype: object

class

name

wzx g

lzq m

jjj m

Name: sex, dtype: object

sex

7.按行号取行

#取第0行和第2行数据

df.iloc[[0,2]]

输出：

age class sex

name

wzx 25 c g

jjj 5 c m

#从第0行起，取3行数据

df.iloc[0:3]

输出：

age class sex

name

wzx 25 c g

lzq 24 c m

jjj 5 c m

#取从第0行起，取3行数据的第1、2列

df.iloc[0:3,[1,2]]

输出：

class sex

name

wzx c g

lzq c m

jjj c m

8.转换成数组后取数据

#转换成数组，取数组中第0行第0列数据

df.values[0,0]

输出:

9.运算取索引

#取符合条件的索引(age=24的索引)

df.age==24

输出;

name

wzx False

lzq True

jjj False

Name: age, dtype: bool

#取符合条件的索引的所有数据

df[df.age==24]

输出：

age class sex

name

lzq 24 c m

10.对某列判空

#判断某列是否全为空

df['age'].isnull().all()

#判断某列是否含有空值

df['age'].isnull().any()

三、数据修改

1.修改某单元格的值

#将索引为wzx行的age修改为18

df.loc["wzx","age"] = 18

print(df.loc["wzx"])

输出：

age 18

class c

sex g

Name: wzx, dtype: object

2.添加一列

#1.创建Series，传入一个列表表示这列的值，还可以指定索引，列表的长度需要等于索引个数

s1 = pd.Series([1, 2, 3],index=df.index)

print(s1)

输出：

name

wzx 1

lzq 2

jjj 3

dtype: int64

#2.插入df，即指定df的某列为这个Series，如这个Series为df的id列

df["id"]=s1

print(df)

输出：

age class sex id

name

wzx 25 c g 1

lzq 24 c m 2

jjj 5 c m 3

3.添加一行

方法一：插入Series

#1.创建Series，传入一个列表表示这列的值，还可以指定索引，列表的长度需要等于索引个数

#创建Series可使用name参数指定Series的索引，如果不指定，也可以在插入df时指定

s1 = pd.Series([1, "c","m"],df.columns)

print(s1)

输出：

age 1

class c

sex m

dtype: object

#2.插入df，此时指定索引为xiaoxiao

df.loc["xiaoxiao"] = s1

print(df)

输出：

age class sex id

name

wzx 25 c g 1

lzq 24 c m 2

jjj 5 c m 3

方法二:使用append方法插入

#1.创建Series，传入一个列表表示这列的值，还可以指定索引，列表的长度需要等于索引个数

#创建Series使用name参数指定索引，如果指定了name，则在调用append方法时，则不能忽略索引，即ignore_index=False

s1 = pd.Series([1, "c","m"],index=["age","class","sex"],name="xiaoxiao")

df = df.append(s1,ignore_index=False)

print(df)

输出：

age class sex

name

wzx 25 c g

lzq 24 c m

jjj 5 c m

xiaoxiao 1 c m

四、合并

1.concat垂直合并两个df

类似sql中的union all，但是两个df的结构(字段数量)可以不一致。如：

#1.创建两个相同的df

df1 = pd.read_excel(fileName , sheet_name=sheetName)

df2 = pd.read_excel(fileName , sheet_name=sheetName)

df1.set_index('name',inplace=True)

df2.set_index('name',inplace=True)

两个df内容相同：

age class sex

name

wzx 25 c g

lzq 24 c m

jjj 5 c m

#给df1添加一列

s1 = pd.Series([1, 2, 3],index=df.index)

df1["id"]=s1

#合并df1和df2

df = pd.concat([df1,df2])

print(df)

输出：

age class sex id

name

wzx 25 c g 1.0

lzq 24 c m 2.0

jjj 5 c m 3.0

wzx 25 c g NaN

lzq 24 c m NaN

jjj 5 c m NaN

2.concat水平合并两个df

水平合并只需要在调用concat时指定axis=1即可。相当于sql的join，会将索引一致的数据合并在一起。

如df2中没有索引为xiaoxiao的数据，则合并后，索引xiaoxiao的那行数据只有df1的值。

同样创建两个内容相同的df：

age class sex

name

wzx 25 c g

lzq 24 c m

jjj 5 c m

#给df1添加一行

s1 = pd.Series([1, "c","m"],index=["age","class","sex"],name="xiaoxiao")

df1 = df1.append(s1,ignore_index=False)

输出：

age class sex

name

wzx 25 c g

lzq 24 c m

jjj 5 c m

xiaoxiao 1 c m

#水平合并

df = pd.concat([df1,df2],axis=1)

print(df)

输出：

age class sex age class sex

wzx 25 c g 25.0 c g

lzq 24 c m 24.0 c m

jjj 5 c m 5.0 c m

xiaoxiao 1 c m NaN NaN NaN

3.使用merge合并

merge合并时，也类似于sql的join。并且可以指定join方式，要睡觉不写了。。。具体参考官网：df的merge

本文地址：https://blog.csdn.net/x950913/article/details/108716122

如您对本文有疑问或者有任何想说的，请点击进行留言回复，万千网友为您解惑！

本文链接：https://blog.csdn.net/weixin_39799565/article/details/110838437

原作者删帖不实内容删帖广告或垃圾文章投诉

智能推荐

php生成excel文件_withstartrow false 不生效-程序员宅基地

文章浏览阅读241次。<?php function createExcel($list, $indexKey, $filename = "", $startRow = 1, $excel2007 = false){ require_once APPLICATION_PATH . '/PHPExcel/PHPExcel.php'; require_once APPLICATION_PATH . ..._withstartrow false 不生效

Typora多行公式自动编号+引用_typora公式编号-程序员宅基地

文章浏览阅读1.1w次，点赞21次，收藏43次。Typora公式自动编号文章目录Typora公式自动编号手动键入tag简单公式解决方法公式对齐不能自动编号的问题手动键入tag键入手动方法后加\tag，如行间直接键入$$y=ax+b \tag 1$$y=ax+b(1)y=ax+b \tag{1}y=ax+b(1)这样的问题是公式没有居中手动添加编号效率太低，如果中间插入一个公式，后面的都要动简单公式解决方法公式插入按快捷键而不是直接在行间键入，注意，似乎手动按格式输入不行，必须要用快捷键插入。默认的快捷键是Ctrl+Shift+K_typora公式编号

使用滚动条来显示＜el-tree＞组件溢出的内容_el-tree节点溢出-程序员宅基地

文章浏览阅读437次。<div style="height:650px;overflow:auto;"> <el-tree></er-tree></div>在<el-tree>组件外面包裹一个divoverflow:auto;如果内容被修剪，则浏览器会显示滚动条以便查看其余的内容。overflow:scoll;内容会被修剪，但是浏览器会显示滚动条以便查看其余的内容。【注意】：设置元素的长度，长度范围小于背景范围。..._el-tree节点溢出

深度学习——L0、L1及L2范数_l0范数和l1范数-程序员宅基地

文章浏览阅读3.2w次，点赞31次，收藏93次。L1范数和L2范数的差别一个是绝对值最小，一个是平方最小：L1会趋向于产生少量的特征，而其他的特征都是0，而L2会选择更多的特征，这些特征都会接近于0。_l0范数和l1范数

Python输出时出现乱码“�밴��. . . ”的解决方案-程序员宅基地

文章浏览阅读3.2k次，点赞6次，收藏4次。输出时出现“�밴��. . . ”乱码解决方案左上角File下点击Setting...点击File Encodings修改Global Encoding为GBK重新运行程序不再出现乱码_. . .

Unity3D研究院之mac上从.ipa中提取unity3D游戏资源（六十六）-程序员宅基地

文章浏览阅读1.9k次。http://www.xuanyusong.com/archives/2584感谢今天某大神（既然是大神名子我当然要保密喽）告诉我Disunity更新了，不然我还不知道。以前很多人都说用Disunity提取出了Unity3D资源，但是我在Mac上从来没有成功过，一直在报错。https://github.com/ata4/disunity/releases 在这里可以看到Disu

随便推点

【Java】方法中的参数传递机制的具体体现_说明java方法中的参数传递机制的具体体现?-程序员宅基地

文章浏览阅读3.1k次。while循环和do-while循环区别While：符合条件时执行Do-while：先做一次再说，之后符合条件时执行_说明java方法中的参数传递机制的具体体现?

Confluent.Kafka 在.net core下的坑_failed to load the librdkafka native library.-程序员宅基地

文章浏览阅读7.4k次。centos 下运行报错：Unhandled Exception: System.DllNotFoundException: Failed to load the librdkafka native library. at Confluent.Kafka.Impl.LibRdKafka.Initialize(String userSpecifiedPath) in C:\Users\sugar..._failed to load the librdkafka native library.

wpa_supplicant 状态机的切换以及事件驱动_enum wpa_event_type 详解-程序员宅基地

文章浏览阅读7.6k次，点赞6次，收藏25次。wpa_supplicant 状态机的切换adb logcat | findstr "wpa_supplicant:.wlan0:.State:"1.一次打开WIFI自动连接的过程09-29 20:53:59.796 4882 4882 D wpa_supplicant: wlan0: State: DISCONNECTED -> DISCONNECTED09-29 2_enum wpa_event_type 详解

记录一个vue directive实现点击指令外部区域调用函数的方案-程序员宅基地

文章浏览阅读813次。2019独角兽企业重金招聘Python工程师标准>>> ..._vue 多选点击选项框外执行函数

来自北京大学NOIP金牌选手yxc的常用代码模板2——数据结构_yxc 二叉树-程序员宅基地

文章浏览阅读2.1k次，点赞7次，收藏60次。目录1.单链表2.双链表3.栈4.队列5.单调栈6. 单调队列7.KMP8.Trie树9.并查集10.堆11.一般哈希12.字符串哈希13.C++ STL简介1.单链表// head存储链表头，e[]存储节点的值，ne[]存储节点的next指针，idx表示当前用到了哪个节点int head, e[N], ne[N], idx;// 初始化void init(){ head = -1; idx = 0;}// 在链表头插入一个数avoid insert(int a){_yxc 二叉树

[Python数据分析] 5-挖掘建模(监督学习)_name = column_list[i]-程序员宅基地

文章浏览阅读764次。# I.理论部分:机器学习是过程,模型是这个过程的结果# 1)机器学习和建模# i.学习:通过接收到的数据,归纳提取相同与不同# ii.机器学习:让计算机以数据为基础,进行归纳和总结# iii.模型:数据解释现象的系统# 2)数据集:通常来说各部分占比:训练集6:验证集2:测试集2# i.训练集:训练拟合模型# ii.验证集:通过训练集训练出多个模型后,使用验证集数据纠正或比较预测..._name = column_list[i]