用于数据分析、时间序列和统计的强大数据结构

pandas的Python项目详细描述


^ {STR 1 } $熊猫/<强>是一个Python程序包,提供快速、灵活和有表现力的数据。 设计用于与结构化(表格,多维, 潜在的异构)和时间序列数据既简单又直观。它 目标是成为实践的基础性高层建筑, real worldpython中的数据分析。此外,它还有一个更广泛的目标 成为^ {STR 1 } $最强大和最灵活的开源数据分析/ 任何语言都提供操作工具。已经在路上了 为了这个目标。

熊猫非常适合多种不同类型的数据:

  • Tabular data with heterogeneously-typed columns, as in an SQL table or Excel spreadsheet
  • Ordered and unordered (not necessarily fixed-frequency) time series data.
  • Arbitrary matrix data (homogeneously typed or heterogeneous) with row and column labels
  • Any other form of observational / statistical data sets. The data actually need not be labeled at all to be placed into a pandas data structure

熊猫系列(一维)和数据框架的两种主要数据结构 (二维),处理金融领域的绝大多数典型用例, 统计学、社会科学和许多工程领域。对于r用户, dataframe提供了r的data.frame所提供的一切 更多。熊猫是建立在NumPy之上的 旨在与许多 其他第三方库。

以下是一些熊猫做得很好的事情:

  • Easy handling of missing data (represented as NaN) in floating point as well as non-floating point data
  • Size mutability: columns can be inserted and deleted from DataFrame and higher dimensional objects
  • Automatic and explicit data alignment: objects can be explicitly aligned to a set of labels, or the user can simply ignore the labels and let Series, DataFrame, etc. automatically align the data for you in computations
  • Powerful, flexible group by functionality to perform split-apply-combine operations on data sets, for both aggregating and transforming data
  • Make it easy to convert ragged, differently-indexed data in other Python and NumPy data structures into DataFrame objects
  • Intelligent label-based slicing, fancy indexing, and subsetting of large data sets
  • Intuitive merging and joining data sets
  • Flexible reshaping and pivoting of data sets
  • Hierarchical labeling of axes (possible to have multiple labels per tick)
  • Robust IO tools for loading data from flat files (CSV and delimited), Excel files, databases, and saving / loading data from the ultrafast HDF5 format
  • Time series-specific functionality: date range generation and frequency conversion, moving window statistics, moving window linear regressions, date shifting and lagging, etc.

这些原则中有许多是为了经常解决这些缺点 有使用其他语言/科学研究环境的经验。对于数据 科学家处理数据通常分为多个阶段: 咀嚼和清理数据,对其进行分析/建模,然后组织结果 使分析成为适合于绘图或表格显示的形式。熊猫是 所有这些任务的理想工具。

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
orm如何在Java中实现规范化映射?   java以编程方式修改Xtext生成的Mwe2工作流   java正在覆盖外部文件中的现有数据,如何停止?   java在ANTLR BNF语法符号中epsilon的等价物是什么?   java如何使用Hibernate@Anyrelated注释?   代码生成生成java类并在运行时加载它   java Maven无法在本地jar文件中收集依赖项   java NetBeans IDE 8.2不显示错误消息   java Selenium web驱动程序找不到元素   java如何修复“拒绝访问属性”invoke“”的权限?   JavaApacheJClouds,从比日期更早的blob中删除blob的最佳方法   java如何比较和排序树集中的项目?   使用JavaSpring和无头/解耦CMS   java使用swagercodegen在不同的类中生成端点   Java外部Keylistener没有响应