用于数据分析、时间序列和统计的强大数据结构

workbenchdata-pandas的Python项目详细描述


^ {STR 1 } $熊猫/<强>是一个Python程序包,提供快速、灵活和有表现力的数据。 设计用于与结构化(表格,多维, 潜在的异构)和时间序列数据既简单又直观。IT 目标是成为实践的基础性高层建筑, real worldpython中的数据分析。此外,它还有一个更广泛的目标 成为^ {STR 1 } $最强大和最灵活的开源数据分析/ 任何语言都提供操作工具。已经在路上了 为了这个目标。

熊猫非常适合多种不同类型的数据:

  • Tabular data with heterogeneously-typed columns, as in an SQL table or Excel spreadsheet
  • Ordered and unordered (not necessarily fixed-frequency) time series data.
  • Arbitrary matrix data (homogeneously typed or heterogeneous) with row and column labels
  • Any other form of observational / statistical data sets. The data actually need not be labeled at all to be placed into a pandas data structure

熊猫系列(一维)和数据框架的两种主要数据结构 (二维),处理金融领域的绝大多数典型用例, 统计学、社会科学和许多工程领域。对于r用户, dataframe提供了r的data.frame所提供的一切 更多。熊猫是建立在NumPy之上的 旨在与许多 其他第三方库。

以下是一些熊猫做得很好的事情:

  • Easy handling of missing data (represented as NaN) in floating point as well as non-floating point data
  • Size mutability: columns can be inserted and deleted from DataFrame and higher dimensional objects
  • Automatic and explicit data alignment: objects can be explicitly aligned to a set of labels, or the user can simply ignore the labels and let Series, DataFrame, etc. automatically align the data for you in computations
  • Powerful, flexible group by functionality to perform split-apply-combine operations on data sets, for both aggregating and transforming data
  • Make it easy to convert ragged, differently-indexed data in other Python and NumPy data structures into DataFrame objects
  • Intelligent label-based slicing, fancy indexing, and subsetting of large data sets
  • Intuitive merging and joining data sets
  • Flexible reshaping and pivoting of data sets
  • Hierarchical labeling of axes (possible to have multiple labels per tick)
  • Robust IO tools for loading data from flat files (CSV and delimited), Excel files, databases, and saving / loading data from the ultrafast HDF5 format
  • Time series-specific functionality: date range generation and frequency conversion, moving window statistics, moving window linear regressions, date shifting and lagging, etc.

这些原则中有许多是为了经常解决这些缺点 有使用其他语言/科学研究环境的经验。对于数据 科学家处理数据通常分为多个阶段: 咀嚼和清理数据,对其进行分析/建模,然后组织结果 使分析成为适合于绘图或表格显示的形式。熊猫是 所有这些任务的理想工具。

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java使用servlet的正确方法是什么?   java Android ListView选中所有复选框(自定义ResourceCursorAdapter)   java如何在一个活动中正确处理多个片段交互侦听器?   java jUnit和忽略继承的测试   具有多个权限的java ActivityResultLauncher   Java:我可以通过应用程序将客户端重定向到loadbalancer后面的同一个会话/节点吗?   java如何使用Hibernate保存具有一对一关系的两个类?   java JEditorPane字体大小设置不准确   java为什么JUnit4导入不被识别,即使JUnit4在我的有效pom中。xml?   多次使用流后的java空映射   JavaSwing中AccessibleContext的用途是什么?   java指定使用T的类   java查找twitter4j转发速率限制   枚举的Java数组(类)   java通过Maven build排除了一些类