为pandas数据框生成配置文件报告

pandas-profiling的Python项目详细描述


熊猫侧写

构建状态代码覆盖率release versioncode style:black

从pandasdataframe生成配置文件报告。 pandasdf.descripe()函数很棒,但对于严肃的探索性数据分析来说,它有点基础。 pandas_profiling使用df.profile_report()扩展pandas数据帧,以便进行快速数据分析。

对于每一列,以下统计信息(如果与列类型相关)将显示在交互式HTML报表中:

示例

下面的示例可以让您了解包的功能:

安装

使用pip

pypi downloadspypi monthly downloadspypi version

您可以通过运行pip包管理器进行安装

pip install pandas-profiling

或者,您可以直接从github安装:

pip install https://github.com/pandas-profiling/pandas-profiling/archive/master.zip

使用conda

conda downloadsconda version

您可以通过运行conda软件包管理器进行安装

conda install -c conda-forge pandas-profiling

来源

通过克隆存储库或按此页上的'download zip'下载源代码。 导航到正确的目录并运行

python setup.py install

用法

profile报告是用html5和css3编写的,这意味着pandas profile需要一个现代化的浏览器。

文档

pandas_profiling的文档可以在这里找到。 文档是使用pdoc3生成的。 如果您正在参与此项目,则可以使用:

make docs

或在Windows上:

make.bat docs

Jupyter笔记本

我们建议使用Jupyter笔记本以交互方式生成报告。

首先加载Pandas数据框,例如使用

importnumpyasnpimportpandasaspdimportpandas_profilingdf=pd.DataFrame(np.random.rand(100,5),columns=['a','b','c','d','e'])

要在Jupyter笔记本中显示报告,请运行:

df.profile_report(style={'full_width':True})

要检索由于相关性高而被拒绝的变量列表:

profile=df.profile_report()rejected_variables=profile.get_rejected_variables(threshold=0.9)

如果要生成HTML报告文件,请将ProfileReport保存到一个对象,并使用to_file()函数:

pip install pandas-profiling
0

命令行用法

对于pandas可以立即读取的标准格式csv文件,可以使用pandas\u配置文件可执行文件。运行< /P>

pip install pandas-profiling
1

有关选项和参数的信息。

高级用法

可以使用一组选项来调整生成的报告。

  • titlestr):报告的标题(默认为"熊猫分析报告"。
  • 池大小int):线程池中的工作线程数。当设置为零时,它被设置为可用的CPU数量(默认为0)。
  • minify_HTMLboolean):是否缩小输出HTML。

更多设置可在默认配置文件中找到

示例

pip install pandas-profiling
2

如何贡献

该软件包是作为开源软件积极维护和开发的。 如果pandas profiling对您有帮助或有兴趣,您可以我想参与进来。 有几种方法可以帮助和帮助成千上万的用户。 如果您想成为行业合作伙伴或赞助商,请给我们写信

阅读更多关于参与贡献指南的内容

编辑器集成

PyCharm集成

  1. 通过以上说明安装pandas profiling

  2. 找到pandas配置文件可执行文件。

    在macos/linux/bsd上:

    pip install pandas-profiling
    
    3

    在Windows上:

    pip install pandas-profiling
    
    4
  3. 在pycharm中,转到设置(或在macos上转到首选项)>;工具>;外部工具

  4. 单击+图标以添加新的外部工具

  5. 插入下列值

    • 名称:pandas profiling
    • 程序:步骤2中获得的位置
    • 参数:"$filepath$"$filedir$/$filenamewoutallextensions$_report.html"
    • 工作目录:$projectfiledir$

pycharm integration>。

要使用PyCharm集成,右键单击任何数据集文件: 外部工具>;熊猫分析

其他集成

其他编辑器集成可以通过拉取请求贡献。

依赖关系

要运行此包,您需要python 3。其他依赖项可以在需求文件中找到:

<表><广告>文件名要求 < /广告><正文>requirements.txt包装要求需求-dev.txt发展要求需求测试.txt测试要求

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
如何使用Java在Selenium WebDriver中按“ALT+S”   java更改ListView的高度会破坏对齐   bytearray获取大整数的字符串表示形式,并在Java中将其转换为字节数组   java为什么我的JButton在不同的计算机上看起来不同?   java从RequestContext或类似文件访问StreamListener头   在Java中从命令行中的文件获取输入   尝试处理catch块时出现java错误   java媒体播放器帮助Android   java Android:createChooser不适用于地图它总是打开google地图   JavaSpringBootSecurity在war中创建文件夹   java生成一个单一的。只包含安卓Test代码的jar   java在Intellij中调试时运行代码段   每隔一次for循环迭代递增一次(JAVA)   java在处理RESTAPI中的“未找到资源”错误方面有哪些好的实践?   java我们如何测试像is valueOf()这样的枚举?   Kafka客户端0.10.0.0 Java未获得超过2499条的重复记录