为pandas数据框生成配置文件报告
pandas-profiling的Python项目详细描述
熊猫侧写
从pandasdataframe
生成配置文件报告。
pandasdf.descripe()
函数很棒,但对于严肃的探索性数据分析来说,它有点基础。
pandas_profiling
使用df.profile_report()扩展pandas数据帧,以便进行快速数据分析。
对于每一列,以下统计信息(如果与列类型相关)将显示在交互式HTML报表中:
- 要点:类型、唯一值、缺少值
- 分位数统计如最小值、q1、中值、q3、最大值、范围、四分位数范围
- 描述性统计如平均值、模式、标准差、和、中位数绝对偏差、变异系数、峰度、偏度
- 最常见值
- 直方图
- 相关性高度相关变量、spearman、pearson和kendall矩阵的突出显示
- 缺失值缺失值的矩阵、计数、热图和树状图
示例
下面的示例可以让您了解包的功能:
- 人口普查收入(与收入相关的美国成人人口普查数据)
- 美国宇航局陨石(陨石着陆的综合集)
- 泰坦尼克号(数据集的"奇妙之墙")
- nza(荷兰卫生保健局的公开数据)
- Stata auto(1978年汽车数据)
- 网站不可访问性(演示URL类型)
安装
使用pip
您可以通过运行pip包管理器进行安装
pip install pandas-profiling
或者,您可以直接从github安装:
pip install https://github.com/pandas-profiling/pandas-profiling/archive/master.zip
使用conda
您可以通过运行conda软件包管理器进行安装
conda install -c conda-forge pandas-profiling
来源
通过克隆存储库或按此页上的'download zip'下载源代码。 导航到正确的目录并运行
python setup.py install
用法
profile报告是用html5和css3编写的,这意味着pandas profile需要一个现代化的浏览器。
文档
pandas_profiling
的文档可以在这里找到。
文档是使用pdoc3
生成的。
如果您正在参与此项目,则可以使用:
make docs
或在Windows上:
make.bat docs
Jupyter笔记本
我们建议使用Jupyter笔记本以交互方式生成报告。
首先加载Pandas数据框,例如使用
importnumpyasnpimportpandasaspdimportpandas_profilingdf=pd.DataFrame(np.random.rand(100,5),columns=['a','b','c','d','e'])
要在Jupyter笔记本中显示报告,请运行:
df.profile_report(style={'full_width':True})
要检索由于相关性高而被拒绝的变量列表:
profile=df.profile_report()rejected_variables=profile.get_rejected_variables(threshold=0.9)
如果要生成HTML报告文件,请将ProfileReport
保存到一个对象,并使用to_file()
函数:
pip install pandas-profiling
0
命令行用法
对于pandas可以立即读取的标准格式csv文件,可以使用pandas\u配置文件
可执行文件。运行< /P>
pip install pandas-profiling
1
有关选项和参数的信息。
高级用法
可以使用一组选项来调整生成的报告。
title
(str
):报告的标题(默认为"熊猫分析报告"。池大小
(int
):线程池中的工作线程数。当设置为零时,它被设置为可用的CPU数量(默认为0)。minify_HTML
(boolean
):是否缩小输出HTML。
更多设置可在默认配置文件中找到
示例
pip install pandas-profiling
2
如何贡献
该软件包是作为开源软件积极维护和开发的。
如果pandas profiling
对您有帮助或有兴趣,您可以我想参与进来。
有几种方法可以帮助和帮助成千上万的用户。
如果您想成为行业合作伙伴或赞助商,请给我们写信
阅读更多关于参与贡献指南的内容
编辑器集成
PyCharm集成
通过以上说明安装
pandas profiling
找到
pandas配置文件
可执行文件。
在macos/linux/bsd上:
3pip install pandas-profiling
在Windows上:
4pip install pandas-profiling
在pycharm中,转到设置(或在macos上转到首选项)>;工具>;外部工具
单击+图标以添加新的外部工具
插入下列值
- 名称:pandas profiling
- 程序:步骤2中获得的位置
- 参数:"$filepath$"$filedir$/$filenamewoutallextensions$_report.html"
- 工作目录:$projectfiledir$
>。
要使用PyCharm集成,右键单击任何数据集文件: 外部工具>;熊猫分析
其他集成
其他编辑器集成可以通过拉取请求贡献。
依赖关系
要运行此包,您需要python 3。其他依赖项可以在需求文件中找到:
<表><广告>