python pandas常用函数_python:pandas常用功能函数操作-程序员宅基地

技术标签： python pandas常用函数

一、安装pandas

创建虚拟环境：

#创建虚拟环境

mkvirtualenv -p python3 pandas_env

#进入虚拟环境

workon pandas_env

安装pandas

# 1、安装包

$ pip install pandas

测试

# 2、进入python的交互式界面

$ python -i

# 3、使用Pandas

>>> import pandas as pd

>>> df = pd.DataFrame()

>>> print(df)

# 4、输出结果

Empty DataFrame

Columns: []

Index: []

安装处理excel的xlrd

pip install xlrd

使用pandas读取excel并打印

from pandas import pandas as pd

df = pd.read_excel("C:/Users/zixuan/Desktop/test.xlsx")

print(df)

输出：

name age class sex

0 wzx 25 c g

1 lzq 24 c m

2 jjj 5 c m

excel内容如下：

二、数据结构

pandas的数据结构分为两种： Series(一维数据)与 DataFrame(二维数据)。

维数

名称

描述

Series

带标签的一维同构数组

DataFrame

带标签的，大小可变的，二维异构表格

Pandas 数据结构就像是低维数据的容器。比如，DataFrame 是 Series 的容器，Series 则是标量的容器。使用这种方式，可以在容器中以字典的形式插入或删除对象。

1.DataFrame

在DataFrame中，index是行，columns是列。如上面的例子中，pandas会将第一行的数据当作表头，即列名。从第二行开始，以0为起始，作为DF的行。

DataFrame 的每一列都是一个Series。如：

for col in df.columns:

series = df[col]

print(series)

输出：

0 wzx

1 lzq

2 jjj

Name: name, dtype: object

0 25

1 24

2 5

Name: age, dtype: int64

0 c

1 c

2 c

Name: class, dtype: object

0 g

1 m

2 m

Name: sex, dtype: object

Pandas 所有数据结构的值都是可变的，但数据结构的大小并非都是可变的，比如，Series 的长度不可改变，但 DataFrame 里就可以插入列。

Pandas 里，绝大多数方法都不改变原始的输入数据，而是复制数据，生成新的对象。一般来说，原始输入数据不变更稳妥。

三、DF的操作

一、属性

1.将df转换成数组

df.values

输出：

[['wzx' 25 'c' 'g']

['lzq' 24 'c' 'm']

['jjj' 5 'c' 'm']]

2.查看所有列名

for col in df.columns:

print(col)

输出：

name

age

class

sex

3.查看所有索引

for index in df.index:

print(index)

输出:

4.查看df的形状

df.shape

输出：

(3, 4)

#三行四列，在excel中是四行四列，但第一行在pandas中被视为表头

5.查看df的大小

df.size

输出：

#即一共有12个单元格

6.查看每列的数据类型

df.dtypes

输出：

name object

age int64

class object

sex object

dtype: object

二、行列操作和切片

1.指定某一列作为索引

#将第一列name设置为索引

df.set_index('name',inplace=True)

print(df.index)

输出：

Index(['wzx', 'lzq', 'jjj'], dtype='object', name='name')

2.取指定列的数据

#查看age列

df['age']

#或

df.age

输出：

name

wzx 25

lzq 24

jjj 5

Name: age, dtype: int64

3.取指定行数据(使用loc)

#取索引为wzx的行

df.loc['wzx']

输出：

age 25

class c

sex g

Name: wzx, dtype: object

#取多行数据(索引为wzx lzq)，可将多个索引以列表方式传入

df.loc[['wzx','lzq']]

输出：

age class sex

name

wzx 25 c g

lzq 24 c m

4.取指定行的指定列的数据(即某单元格的数据)

#取索引为wzx的age

df.loc['wzx','age']

输出：

#取索引为wzx lzq的age class

df.loc[['wzx','lzq'],['age','class']]

输出：

age class

name

wzx 25 c

lzq 24 c

注意：loc可传入两个参数，第一个参数作为索引，第二个参数作为列名。如果不传第二个参数，则默认取所有列。

如：

取某个索引的某个列的例子中，字符串'wzx'作为第一个参数，字符串'age'作为第二个参数。

取多个索引的多个列的例子中，数组['wzx','lzq']作为第一个参数，数组['age','class']作为第二个参数。

5.行切片

#取wzx开始到jjj结束的所有行

df.loc['wzx':'jjj']

输出：

age class sex

name

wzx 25 c g

lzq 24 c m

jjj 5 c m

6.列切片

#取age开始到sex结束的所有列

for col in df['age':'sex']:

series = df[col]

print(series)

print(col)

输出：

name

wzx 25

lzq 24

jjj 5

Name: age, dtype: int64

age

name

wzx c

lzq c

jjj c

Name: class, dtype: object

class

name

wzx g

lzq m

jjj m

Name: sex, dtype: object

sex

7.按行号取行

#取第0行和第2行数据

df.iloc[[0,2]]

输出：

age class sex

name

wzx 25 c g

jjj 5 c m

#从第0行起，取3行数据

df.iloc[0:3]

输出：

age class sex

name

wzx 25 c g

lzq 24 c m

jjj 5 c m

#取从第0行起，取3行数据的第1、2列

df.iloc[0:3,[1,2]]

输出：

class sex

name

wzx c g

lzq c m

jjj c m

8.转换成数组后取数据

#转换成数组，取数组中第0行第0列数据

df.values[0,0]

输出:

9.运算取索引

#取符合条件的索引(age=24的索引)

df.age==24

输出;

name

wzx False

lzq True

jjj False

Name: age, dtype: bool

#取符合条件的索引的所有数据

df[df.age==24]

输出：

age class sex

name

lzq 24 c m

10.对某列判空

#判断某列是否全为空

df['age'].isnull().all()

#判断某列是否含有空值

df['age'].isnull().any()

三、数据修改

1.修改某单元格的值

#将索引为wzx行的age修改为18

df.loc["wzx","age"] = 18

print(df.loc["wzx"])

输出：

age 18

class c

sex g

Name: wzx, dtype: object

2.添加一列

#1.创建Series，传入一个列表表示这列的值，还可以指定索引，列表的长度需要等于索引个数

s1 = pd.Series([1, 2, 3],index=df.index)

print(s1)

输出：

name

wzx 1

lzq 2

jjj 3

dtype: int64

#2.插入df，即指定df的某列为这个Series，如这个Series为df的id列

df["id"]=s1

print(df)

输出：

age class sex id

name

wzx 25 c g 1

lzq 24 c m 2

jjj 5 c m 3

3.添加一行

方法一：插入Series

#1.创建Series，传入一个列表表示这列的值，还可以指定索引，列表的长度需要等于索引个数

#创建Series可使用name参数指定Series的索引，如果不指定，也可以在插入df时指定

s1 = pd.Series([1, "c","m"],df.columns)

print(s1)

输出：

age 1

class c

sex m

dtype: object

#2.插入df，此时指定索引为xiaoxiao

df.loc["xiaoxiao"] = s1

print(df)

输出：

age class sex id

name

wzx 25 c g 1

lzq 24 c m 2

jjj 5 c m 3

方法二:使用append方法插入

#1.创建Series，传入一个列表表示这列的值，还可以指定索引，列表的长度需要等于索引个数

#创建Series使用name参数指定索引，如果指定了name，则在调用append方法时，则不能忽略索引，即ignore_index=False

s1 = pd.Series([1, "c","m"],index=["age","class","sex"],name="xiaoxiao")

df = df.append(s1,ignore_index=False)

print(df)

输出：

age class sex

name

wzx 25 c g

lzq 24 c m

jjj 5 c m

xiaoxiao 1 c m

四、合并

1.concat垂直合并两个df

类似sql中的union all，但是两个df的结构(字段数量)可以不一致。如：

#1.创建两个相同的df

df1 = pd.read_excel(fileName , sheet_name=sheetName)

df2 = pd.read_excel(fileName , sheet_name=sheetName)

df1.set_index('name',inplace=True)

df2.set_index('name',inplace=True)

两个df内容相同：

age class sex

name

wzx 25 c g

lzq 24 c m

jjj 5 c m

#给df1添加一列

s1 = pd.Series([1, 2, 3],index=df.index)

df1["id"]=s1

#合并df1和df2

df = pd.concat([df1,df2])

print(df)

输出：

age class sex id

name

wzx 25 c g 1.0

lzq 24 c m 2.0

jjj 5 c m 3.0

wzx 25 c g NaN

lzq 24 c m NaN

jjj 5 c m NaN

2.concat水平合并两个df

水平合并只需要在调用concat时指定axis=1即可。相当于sql的join，会将索引一致的数据合并在一起。

如df2中没有索引为xiaoxiao的数据，则合并后，索引xiaoxiao的那行数据只有df1的值。

同样创建两个内容相同的df：

age class sex

name

wzx 25 c g

lzq 24 c m

jjj 5 c m

#给df1添加一行

s1 = pd.Series([1, "c","m"],index=["age","class","sex"],name="xiaoxiao")

df1 = df1.append(s1,ignore_index=False)

输出：

age class sex

name

wzx 25 c g

lzq 24 c m

jjj 5 c m

xiaoxiao 1 c m

#水平合并

df = pd.concat([df1,df2],axis=1)

print(df)

输出：

age class sex age class sex

wzx 25 c g 25.0 c g

lzq 24 c m 24.0 c m

jjj 5 c m 5.0 c m

xiaoxiao 1 c m NaN NaN NaN

3.使用merge合并

merge合并时，也类似于sql的join。并且可以指定join方式，要睡觉不写了。。。具体参考官网：df的merge

本文地址：https://blog.csdn.net/x950913/article/details/108716122

如您对本文有疑问或者有任何想说的，请点击进行留言回复，万千网友为您解惑！

本文链接：https://blog.csdn.net/weixin_39799565/article/details/110838437

原作者删帖不实内容删帖广告或垃圾文章投诉

智能推荐

c# 调用c++ lib静态库_c#调用lib-程序员宅基地

文章浏览阅读2w次，点赞7次，收藏51次。四个步骤1.创建C++ Win32项目动态库dll 2.在Win32项目动态库中添加外部依赖项 lib头文件和lib库3.导出C接口4.c#调用c++动态库开始你的表演...①创建一个空白的解决方案，在解决方案中添加 Visual C++ , Win32 项目空白解决方案的创建：添加Visual C++ , Win32 项目这......_c#调用lib

deepin/ubuntu安装苹方字体-程序员宅基地

文章浏览阅读4.6k次。苹方字体是苹果系统上的黑体，挺好看的。注重颜值的网站都会使用，例如知乎：font-family: -apple-system, BlinkMacSystemFont, Helvetica Neue, PingFang SC, Microsoft YaHei, Source Han Sans SC, Noto Sans CJK SC, W..._ubuntu pingfang

html表单常见操作汇总_html表单的处理程序有那些-程序员宅基地

文章浏览阅读159次。表单表单概述表单标签表单域按钮控件demo表单标签表单标签基本语法结构<form action="处理数据程序的url地址“ method=”get|post“ name="表单名称”></form><!--method将表单中的数据传送给服务器处理，get方式直接显示在url地址中，数据可以被缓存，且长度有限制；而post方式数据隐藏传输，_html表单的处理程序有那些

PHP设置谷歌验证器（Google Authenticator）实现操作二步验证_php otp 验证器-程序员宅基地

文章浏览阅读1.2k次。使用说明:开启Google的登陆二步验证（即Google Authenticator服务）后用户登陆时需要输入额外由手机客户端生成的一次性密码。实现Google Authenticator功能需要服务器端和客户端的支持。服务器端负责密钥的生成、验证一次性密码是否正确。客户端记录密钥后生成一次性密码。下载谷歌验证类库文件放到项目合适位置(我这边放在项目Vender下面)https://github.com/PHPGangsta/GoogleAuthenticatorPHP代码示例://引入谷_php otp 验证器

【Python】matplotlib.plot画图横坐标混乱及间隔处理_matplotlib更改横轴间距-程序员宅基地

文章浏览阅读4.3k次，点赞5次，收藏11次。matplotlib.plot画图横坐标混乱及间隔处理_matplotlib更改横轴间距

docker — 容器存储_docker 保存容器-程序员宅基地

文章浏览阅读2.2k次。①Storage driver 处理各镜像层及容器层的处理细节，实现了多层数据的堆叠，为用户提供了多层数据合并后的统一视图②所有 Storage driver 都使用可堆叠图像层和写时复制（CoW）策略③docker info 命令可查看当系统上的 storage driver主要用于测试目的，不建议用于生成环境。_docker 保存容器

随便推点

网络拓扑结构_网络拓扑csdn-程序员宅基地

文章浏览阅读834次，点赞27次，收藏13次。网络拓扑结构是指计算机网络中各组件（如计算机、服务器、打印机、路由器、交换机等设备）及其连接线路在物理布局或逻辑构型上的排列形式。这种布局不仅描述了设备间的实际物理连接方式，也决定了数据在网络中流动的路径和方式。不同的网络拓扑结构影响着网络的性能、可靠性、可扩展性及管理维护的难易程度。_网络拓扑csdn

JS重写Date函数，兼容IOS系统_date.prototype 将所有 ios-程序员宅基地

文章浏览阅读1.8k次，点赞5次，收藏8次。IOS系统Date的坑要创建一个指定时间的new Date对象时，通常的做法是：new Date("2020-09-21 11:11:00")这行代码在 PC 端和安卓端都是正常的，而在 iOS 端则会提示 Invalid Date 无效日期。在IOS年月日中间的横岗许换成斜杠，也就是new Date("2020/09/21 11:11:00")通常为了兼容IOS的这个坑，需要做一些额外的特殊处理，笔者在开发的时候经常会忘了兼容IOS系统。所以就想试着重写Date函数，一劳永逸，避免每次ne_date.prototype 将所有 ios