Python pandas-cub包_程序模块 - PyPI

类似于pandas的简单数据分析库

pandas-cub的Python项目详细描述

如何使用熊猫宝宝

readme.ipynb笔记本将作为熊猫幼崽的文档和使用指南。

安装

pip安装熊猫幼崽

熊猫宝宝是什么？

熊猫幼兽是一个简单的数据分析库，模拟熊猫库的功能。这个图书馆不适合认真工作。它是为ted petrou的一个python类创建的。如果您想自己完成作业，请访问此存储库。要重建库，必须通过大约40个步骤和100个测试。这是一个很好的挑战，教你如何建立自己的数据分析库的基本原理。

熊猫宝宝功能

熊猫幼崽的功能有限，但仍能执行各种各样的数据分析任务。

带括号的子集选择
算术和比较运算符（+，-，<；，！=，等等……）
具有大多数常用函数（min、max、mean、median等）的列的聚合
通过数据透视表分组
仅用于包含字符串的列的字符串方法
读取简单的逗号分隔值文件
其他几种方法

熊猫宝宝数据框

熊猫幼崽只有一个主对象dataframe来保存所有数据。dataframe能够保存4种数据类型：布尔、整数、浮点和字符串。所有数据都存储在numpy数组中。panda_cub数据帧没有索引（在pandas中）。列必须是字符串。

缺少值表示形式

布尔列和整数列将没有缺少的值表示形式。numpy nan用于浮点数列，python none用于字符串列。

代码示例

pandas_cub语法与pandas非常相似，但实现的方法要少得多。下面的示例将涵盖几乎所有的api。

使用"读取CSV"读取数据

pandas_cub由一个函数read_csv组成，该函数有一个参数，即要作为数据帧读入的文件的位置。此函数只能处理简单的csv，分隔符必须是逗号。数据目录中提供了示例雇员数据集。请注意，数据帧的可视输出与pandas数据帧的输出几乎相同。默认情况下，head方法返回前5行。

importpandas_cubaspdc

df=pdc.read_csv('data/employee.csv')df.head()

	部门	种族	性别	工资
0	休斯顿警察局hpd	白人	男性	45279部门（HFD）	白色	男性	63166
2		休斯顿警察局HPD	黑色	男性	66614	男性	71680
4	休斯顿机场系统（has）	白色	男性	42390

数据帧属性

形状属性返回行数和列数的元组

df.shape

(1535, 4)

函数只返回行数。

len(df)

dtypes属性返回列名及其各自数据类型的数据帧。

df.dtypes

数据类型>>>>>数据类型>>>><<><<><<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<字符串3工资int

columns属性返回列的列表。

df.columns

['dept', 'race', 'gender', 'salary']

通过将列属性指定给列表来设置新列。

importpandas_cubaspdc

	部门	种族	性别	薪金
0	休斯顿警察局hpd	白人	男性	45279部门（HFD）	白色	男性	63166
2		休斯顿警察局HPD	黑色	男性	66614	男性	71680
4	休斯顿机场系统（has）	白色	男性	42390

值属性返回所有数据的单个numpy数组。

importpandas_cubaspdc

importpandas_cubaspdc

子集选择

子集选择用括号处理。若要选择单个列，请将该列名放在括号中。

importpandas_cubaspdc


0	白色
4	白色

用字符串列表选择多个列。

importpandas_cubaspdc

4 关于"种族>年薪>>>年薪>><<><0>0>0白种人45279><><<<<<<<<<<<<<<<<<<>白种人>白种人<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<>666143亚洲语
同时选择行和列，方法是在括号中传递行选择，然后是用逗号分隔的列选择。在这里，行使用整数，列使用字符串。
importpandas_cubaspdc
5 关于薪酬的问题，请参见表格>关于薪酬的问题，请参见>关于"种族"的问题，请参见>关于"身体"的问题，请参见>关于"种族"的问题，请参见>关于"身体"的问题。白色
您也可以对列使用整数。
importpandas_cubaspdc
6
性别部门HPD
2 男性休斯顿警察局HPD
您可以使用单个整数，而不仅仅是列表。
importpandas_cubaspdc
7 工资表
或列的单个字符串
importpandas_cubaspdc
8 工资表
您可以对行使用切片
importpandas_cubaspdc
9 关于性别的种族和性别的种族和性别的种族和性别的种族和性别的种族和性别的种族和性别的种族和性别之间的性别和性别之间的性别差异。是的3白色男性4白色男性5西班牙裔男性
也可以使用整数或字符串对列进行切片
df=pdc.read_csv('data/employee.csv')df.head()
0
部门比赛
2 休斯顿警察局hpd 西班牙裔
3 休斯顿警察局hpd 白色
5 休斯顿警察局hpd 西班牙裔
6 休斯顿消防局（hfd）西班牙裔
7 休斯顿警察局hpd 黑色
df=pdc.read_csv('data/employee.csv')df.head()
1
部门种族性别男
2 休斯顿警察局hpd 西班牙裔男
3 休斯顿警察局hpd 白人男
4 消防局（HFD）白色男性
5 休斯顿警察局HPD 西班牙裔男性
6 休斯顿消防局（HFD）西班牙裔男性
7 休斯顿警察局hpd 黑色女性
如果向括号中传递一列布尔数据框，则可以执行布尔选择。
df=pdc.read_csv('data/employee.csv')df.head()
2 工资表关于这一点，我们已经开始关注这一问题了。><<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<><<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<>假
df=pdc.read_csv('data/employee.csv')df.head()
3 公共工程部工程PWE白色男性1079621健康&；人类服务黑色男性1804162休斯顿消防局（HFD）西班牙裔男性人性化服务白色女性1007914休斯顿机场系统（has）白色男性120916
df=pdc.read_csv('data/employee.csv')df.head()
4 关于"种族"和"工资"的问题，请看《表格》和《种族》这两个"种族"和"种族"这两个"种族"和"种族"这两个"种族"和"工资"这两个"薪酬"之间的差异。1652163白色1007914白色120916
指定列
你可以n只分配一个完整的新列或覆盖一个旧列。不能指定数据的子集。您可以使用如下单个值指定新列：
df=pdc.read_csv('data/employee.csv')df.head()
5
部门种族性别工资奖金1000
1 休斯顿消防局（HFD）白色男性 63166 10001000
3 公共工程和工程pwe 亚洲男性 71680 10001000
您可以使用numpy数组指定与列相同的长度。
df=pdc.read_csv('data/employee.csv')df.head()
6
部门种族性别工资奖金3536
1 休斯顿消防局（HFD）白色男性 63166 1296511
3 公共工程和工程pwe 亚洲人3766
您可以用一列数据框指定一个新列。
df=pdc.read_csv('data/employee.csv')df.head()
7 关于工资的问题，请参见《表格》和《关于薪酬的问题，请参见《关于薪酬的问题》和《关于薪酬的问题，请参见《关于薪酬的问题》和《关于薪酬的问题，请参见<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<>><<<><<><<<><<<<<><<<5>>><<<<<<<<<<<<><><<<<><<><<>>><<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<>><<<><<><>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>><>>>>>><>>><>>><>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>><<<<<关于这一问题，我们已经开始进行了深入的研究。><<><<><>1528>82795>><><<>>1529><<<>><<><<><<><<>><>>>>>>>>>>>1529>>><>>>>>>67050>>>>><>>>>><<>>>>>>>>>><<<<<>153247368153360013153452624
df=pdc.read_csv('data/employee.csv')df.head()
8
部门种族性别工资奖金总工资3536 48815
1 休斯顿消防局（HFD）白色男性 66614 511 67125
3 公共工程&；工程PWE 亚洲男性 71680 4267 75947
4 休斯顿机场系统（HAS）白色男性 42390 3766 46156
算术和比较运算符
df=pdc.read_csv('data/employee.csv')df.head()
9 关于工资，奖金，奖金，奖金，奖金，奖金，奖金，奖金，奖金，奖金，奖金，奖金。/td>2555335840021335421195018830
df.shape
0 <<<
工资奖金关于这一问题，我们的《每日>><<<<< << ><<<<<< ><<< < < < < << >
< < < < < << >
<< < >
> > >> >><<< >>><<< >> >> < 假假
4 假假
df.shape
1 ><<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<>
比赛关于这一点，我们不难不
真
聚合
大多数常用的聚合方法都是可用的。它们只作用于列而不是行。
df.shape
2
部门种族性别薪金奖金薪金总额人类服务亚洲女性 24960 101 25913
将删除聚合不起作用的列。
df.shape
3
工资奖金总工资
0 56278.746 2594.283 58873.029
df.shape
4
部门种族性别工资奖金总工资
0 3 0 0 145 1516 145
df.shape
5 工资表
检查所有工资是否大于20000
df.shape
6 工资表
计算不缺少值的数目
df.shape
7
部门种族性别工资奖金总工资
0 1535 15351535
获取唯一值的数目。
df.shape
8
部门种族性别工资奖金总工资
0 6 5 2 548 1318 1524
非聚合方法
这些方法不返回单个值。
得到每列的唯一值。unique方法返回包含每个列的唯一值的数据帧列表。
df.shape
9
(1535, 4)
0
部门休斯顿机场系统娱乐
5 公共工程和工程pwe
(1535, 4)
1
种族
0 亚洲人美式
4 白色
(1535, 4)
2 >休斯顿消防局（HFD）>休斯顿警察局HPD>公园和娱乐工程PWE
性别
用字典重命名列。
(1535, 4)
3
部门种族性别工资奖金总工资3536 48815
1 休斯顿消防局（HFD）白色男性 66614 511 67125
3 公共工程&；工程PWE 亚洲男性 71680 4267 75947
4 休斯顿机场系统（HAS）白色男性 42390 3766 46156
用字符串或字符串列表删除列。
(1535, 4)
4
部门性别工资奖金总工资
0 休斯顿警察局hpd 男性 45279 3536 48815
1 休斯顿消防局（HFD）男 63166 1296 6446267125
3 公共工程&；工程PWE 男 71680 4267 75947
4 休斯顿机场系统（HAS）男 42390 3766 46156
(1535, 4)
5
部门工资奖金总工资
0 休斯顿警察局hpd 45279 3536 48815部门（HFD）公共工程休斯顿机场工程部系统 42390 3766 46156
保留所有列的非聚合方法
接下来的几个方法是非聚合方法，它们返回与原始数据帧形状相同的数据帧。它们只处理布尔列、整数列和浮点数列，而忽略字符串列。
绝对值
(1535, 4)
6
部门种族性别工资奖金总工资3536 48815
1 休斯顿消防局（HFD）白色男性 66614 511 67125
3 公共工程&；工程PWE 亚洲男性 71680 4267 75947
4 休斯顿机场系统（HAS）白色男性 42390 3766 46156
累积最小值、最大值和总和
(1535, 4)
7
部门种族性别工资奖金总工资3536 48815
1 休斯顿消防局（HFD）白色男性 66614 3536 67125
3 公共工程&；工程PWE 亚洲男性 71680 4267 75947
4 休斯顿机场系统（HAS）白色男性 71680 4267 75947
将值剪辑到一个范围内。
(1535, 4)
8
部门种族性别工资奖金总工资40000 48815
1 休斯顿消防局（HFD）白色男性 60000 60000 60000 40000 60000
3 公共工程&；工程PWE 亚洲人男 60000 40000 60000
4 休斯顿机场系统（HAS）白色男 42390 40000 46156
圆形数字列
(1535, 4)
9
部门种族性别薪金奖金薪金总额4000 49000
1 休斯顿消防局（HFD） W男男 63000 1000 64000
2 休斯顿警察局hpd 黑男 67000 1000 67000
3 公共工程和工程pwe 亚洲男性 72000 4000 76000
4 休斯顿机场系统（has）白色男性 42000 4000 46000
复制数据框
len(df)
0
部门种族性别工资奖金总工资3536 48815
1 休斯顿消防局（HFD）白色男性 66614 511 67125
3 公共工程&；工程PWE 亚洲男性 71680 4267 75947
4 休斯顿机场系统（HAS）白色男性 42390 3766 46156
取第n个差。
len(df)
1
部门种族性别工资奖金总工资南 nan
1 休斯顿消防局（HFD）白色男性 21335.000 -3025.000 18310.000
3 公共工程&；工程PWE 亚洲男性 8514.000 2971.000 11485.000
4 休斯顿机场系统（HAS）白色男性 -24224.000 3255.000 -20969.000
5 公共工程&；工程PWE 白色男性 36282.000 -2228.000 34054.000
6 休斯顿消防局（HFD）西班牙裔男性 10254.000 -2672.000 7582.000
7 健康和公共服务黑色男性 72454.000 2893.000 75347.000工程PWE 黑色男性 -22297.000 1134.000 -21163.000人性化服务黑色男性 -125147.000 -2283.000 -127430.000
找出第n个百分比的变化。
len(df)
2
部门种族性别工资奖金总工资NaN NaN
1 休斯顿消防局（HFD）白色男男男男男男男休斯顿警察局HPD 黑色男 0.471 -0.855 公共工程工程PWE 亚洲男性 0.135 2.292 0.178
4 休斯顿机场系统（HAS）白色男性 -0.364 6.370 -0.312
5 公共工程工程PWE 白色男性 0.506 -0.522 0.448
6 休斯顿消防局（HFD）西班牙裔男性 0.242 -0.710 0.164
7 健康和公共服务黑色男性 0.671 1.419 0.685-0.424 1.037 -0.394
9 健康和人类服务黑色男性 -0.694 -0.463 -0.688
按一列或多列对数据框排序
len(df)
3
部门种族性别工资奖金总工资953 25913
1 公共工程和工程pwe 西班牙裔男性 26104 4258 30362
2 公共工程和工程；工程PWE 黑色女性 26125 3247 29372
3 休斯顿机场系统（HAS）西班牙裔女性 26125 832 26957
4 休斯顿机场系统（has）黑色女性 26125 2461 28586
降序排序
len(df)
4
部门种族性别工资奖金总工资3724 214312
1 休斯顿警察局hpd 白色男性 199596 848 200444
2 休斯顿机场系统（has）黑色男性 186192 1778 187970
3 健康与公共服务黑色男性工程PWE 白色女性 178331 2124 180455
按多列排序
len(df)
5
部门种族性别薪金奖金薪金总额4446 30571
1 休斯顿警察局hpd 亚裔男性 27914 2855 30769
2 休斯顿警察局hpd 亚裔男性 28169 2572 30741
3 公共工程和工程pwe 亚洲男性工程PWE 亚洲男性 30347 4938 35285
随机采样数据帧
len(df)
6
部门种族性别工资奖金总工资2995 65535
1 公共工程&；工程PWE 白色男性 63336 1547 64883
2 休斯顿警察局HPD 白色男性 52514 1150 53664
随机抽取分数
len(df)
7
部门种族性别工资奖金总工资1200 61547
1 公共工程和工程pwe 黑色男性 49109 3598 52707人性化服务黑色女性 48984 4602 53586
3 休斯顿警察局HPD 白色男性 55461 2813 58274
4 休斯顿机场系统（has）黑色女性 29286 187766614 4480 71094
6 休斯顿消防局（HFD）白色男性 28024 4475 32499
替换样品
len(df)
8
部门种族性别薪金奖金薪金总额娱乐场所黑色女性 31075 1665 32740
1工程专业：拉美裔男性 67038 644 67682
2 休斯顿警察局HPD 黑色男性 37024 1532 38556
3 健康和公共服务黑色女性 57433 3106 60539
4 公共工程和工程pwe 黑色男性 53373 924 54297
仅字符串方法
使用straccessor调用仅对字符串列可用的方法。将字符串列的名称作为所有这些方法的第一个参数传递。
len(df)
9
部门2
4 0
1535
0
部门部门HPD
3 公共工程和工程PWE
4 休斯顿机场系统（HAS）
1535
1
部门-1
4 0
分组
pandas_cub提供值计数方法，用于对唯一值进行简单的频率计数，并提供透视表用于分组和聚合。
value\u counts方法返回一个数据帧列表，每列一个。
1535
2
(1535, 4)
0
部门计数
0 休斯顿警察局hpd 570
<1 休斯顿消防局（hfd） 365
2 公共工程和工程pwe 341人性化服务
(1535, 4)
1 关于种族的计数>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>><<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<>381
3 亚洲人 87
4 美洲原住民 7
(1535, 4)
2
性别计数
0 男性 1135
如果dataframe只有一列，则返回dataframe而不是list。还可以通过将normalize参数设置为true来返回相对频率。
1535
6 关于"比赛"的计数，我们已经开始了这一天的>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>><<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<< 0.248
3 亚洲人 0.057
4 美洲原住民 0.005
pivot_table方法允许按一列或两列分组，并从另一列聚合值。让我们找出每个种族和性别的平均工资。所有参数必须是字符串。
1535
7 。>>
种族女性男性
58304.222 58304.222 60622.957 亚洲 58304>58304.222>58304.222304.222> 55493.064
3 美洲原住民 58844.333 68850.500
4 白色 66415.528 63439.196
如果您不提供值或aggfunc则默认情况下，它将返回频率（列联表）。
1535
8
种族女性男性
0 亚洲 18 69
1 黑色 207 311
2 西班牙裔 100 281
3 美洲土著 3 4
4 白色 72 470
您可以只按一列分组。
1535
9
部门平均值人力资源服务 51324.981
1 休斯顿机场系统（has） 53990.369
2 休斯顿消防局（hfd） 59960.441部门HPD 60428.746
4 公园和娱乐 39426.151
5 公共工程和工程pwe 50207.806
df.dtypes
0 休斯顿机场系统（HAS）
<0 51324.981 53990.369 59960.441 60428.746 39426.151 50207.806
标签：
pandas
df
工程
部门
cub
奖金
性别
男性
白色
种族
欢迎加入QQ群-->： 979659372
推荐PyPI第三方库
avocado-epigenome
鳄梨是一个学习人类表观基因组潜在代表性的包装。
hdim
用于处理高维数据的工具包。
udn-cis-client
UDN CIS客户端工具
textsummarization
总结任何给定文本的包
logstash-api
logstash api客户端
study-nester
嵌套列表的简单打印机
ustack-tornado-shutdown
用于在sigterm上优雅地终止tornado服务器的库
django-blowdb
快速删除数据库和迁移。
py-applescript
用于nsapplescript的易于使用的python包装器，允许python脚本与applescripts和applescriptable应用程序通信。
cinnamon
没有项目描述
csmpe
CSM插件引擎
phitools
操作一系列化合物的简单工具的集合
m14
定位M14默认目录
odoo11-addons-oca-server-tools
META package for oca-server-tools odoo addons
hgvs-lexicon
没有项目描述

	工资	奖金	总工资
0	56278.746	2594.283	58873.029

	部门	种族	性别	工资	奖金	总工资
0	3	0	0	145	1516	145

	部门	种族	性别	工资	奖金	总工资
0	1535	15351535

	部门	种族	性别	工资	奖金	总工资
0	6	5	2	548	1318		1524

		种族
0	亚洲人美式
4	白色

导航栏
项目描述
版本历史
下载文件
项目链接
首页
标签
许可证: BSD许可证（BSD 3条款）
作者信息:: 暂无
维护者
TedPetrou
最新PyPI项目
italian_vip_says
UFx
vofs
fake_item_generator
NerEva
django-monologue
fio_product_attribute_strict
climailsystem
pyshape
tbb-devel
npy-append-arra
anthill.tal.macrorenderer
odoo11-addon-stock-a
uuuu
contextil
fyl_nester
appomatic_renderable
teacher
chuletas
slackbot_ce
最新Python常见问题
如何在Excel中读取公式并将其转换为Python中的计算？
如何在excel中读取嵌入的excel，并将嵌入文件中的信息存储在主excel文件中？
如何在Excel中返回未知列长度的非空顶行列值？
如何在excel中选择数据列？
如何在Excel中通过脚本自动为一列中的所有单元格创建公共别名
如何在excel中高效格式化范围AttributeError:“tuple”对象没有属性“fill”
如何在excel单元格中编写python函数
如何在excel单元格中自动执行此python代码？
如何在excel工作表中创建具有相应值的新列
如何在Excel工作表中复制条件为单元格颜色的python数据框？
如何在Excel工作表中循环
如何在excel工作表中打印嵌套词典？
如何在excel工作表中绘制所有类的继承树？
如何在Excel工作表中自动调整列宽？
如何在excel工作表中追加并进一步处理

	部门	比赛
2	休斯顿警察局hpd	西班牙裔
	3	休斯顿警察局hpd	白色
5	休斯顿警察局hpd	西班牙裔
6	休斯顿消防局（hfd）	西班牙裔
7	休斯顿警察局hpd	黑色

	工资	奖金关于这一问题，我们的《每日>><<<<<	<<	><<<<<<	><<<	<	<	<	<	<<	>
<	<	<	<		<		<<	>
<<					<				>
>	>	>>		>><<<	>>><<<	>>		>>		<	假	假
4	假	假

pandas-cub 0.0.7

pandas-cub的Python项目详细描述

如何使用熊猫宝宝

安装

熊猫宝宝是什么？

熊猫宝宝功能

熊猫宝宝数据框

缺少值表示形式

代码示例

数据帧属性

子集选择

指定列

算术和比较运算符

聚合

非聚合方法

保留所有列的非聚合方法

仅字符串方法

分组

推荐PyPI第三方库

avocado-epigenome

hdim

udn-cis-client

textsummarization

logstash-api

study-nester

ustack-tornado-shutdown

django-blowdb

py-applescript

cinnamon

csmpe

phitools

m14

odoo11-addons-oca-server-tools

hgvs-lexicon

导 航 栏

项目 链接

标 签

维护者

最新PyPI项目

最新Python常见问题

导航栏

项目链接

标签