如何对数据帧进行子类化？

import numpy as np import pandas as pd class MyDF(pd.DataFrame): # how to subclass pandas DataFrame? pass mydf = MyDF(np.random.randn(3,4), columns=['A','B','C','D']) print type(mydf) # <class '__main__.MyDF'> # Requirement 1: Instances of MyDF, when calling standard methods of DataFrame, # should produce instances of MyDF. mydf_sub = mydf[['A','C']] print type(mydf_sub) # <class 'pandas.core.frame.DataFrame'> # Requirement 2: Attributes attached to instances of MyDF, when calling standard # methods of DataFrame, should still attach to the output. mydf.myattr = 1 mydf_cp1 = MyDF(mydf) mydf_cp2 = mydf.copy() print hasattr(mydf_cp1, 'myattr') # False print hasattr(mydf_cp2, 'myattr') # False

2条回答

网友

1楼 · 编辑于 2024-04-26 14:22:43

现在有一个关于如何对熊猫数据结构进行子分类的官方指南，其中包括DataFrame和Series

指南可在以下位置获得：https://pandas.pydata.org/pandas-docs/stable/development/extending.html#extending-subclassing-pandas

该指南提到Geopandas项目中的这个子类数据帧是一个很好的例子：https://github.com/geopandas/geopandas/blob/master/geopandas/geodataframe.py

在HYRY的回答中，似乎有两件事是你想要完成的：

在类的实例上调用方法时，返回正确类型（您的类型）的实例。为此，您只需添加_constructor属性，该属性将返回您的类型
添加将附加到对象副本的属性。为此，需要将这些属性的名称存储在一个列表中，作为特殊的_metadata属性

下面是一个例子：

class SubclassedDataFrame(DataFrame):
    _metadata = ['added_property']
    added_property = 1  # This will be passed to copies

    @property
    def _constructor(self):
        return SubclassedDataFrame

网友

2楼 · 编辑于 2024-04-26 14:22:43

对于需求1，只需定义_constructor：

import pandas as pd
import numpy as np

class MyDF(pd.DataFrame):
    @property
    def _constructor(self):
        return MyDF


mydf = MyDF(np.random.randn(3,4), columns=['A','B','C','D'])
print type(mydf)

mydf_sub = mydf[['A','C']]
print type(mydf_sub)

我认为对于需求2没有简单的解决方案。我认为您需要定义__init__、copy，或者在_constructor中执行某些操作，例如：

import pandas as pd
import numpy as np

class MyDF(pd.DataFrame):
    _attributes_ = "myattr1,myattr2"

    def __init__(self, *args, **kw):
        super(MyDF, self).__init__(*args, **kw)
        if len(args) == 1 and isinstance(args[0], MyDF):
            args[0]._copy_attrs(self)

    def _copy_attrs(self, df):
        for attr in self._attributes_.split(","):
            df.__dict__[attr] = getattr(self, attr, None)

    @property
    def _constructor(self):
        def f(*args, **kw):
            df = MyDF(*args, **kw)
            self._copy_attrs(df)
            return df
        return f

mydf = MyDF(np.random.randn(3,4), columns=['A','B','C','D'])
print type(mydf)

mydf_sub = mydf[['A','C']]
print type(mydf_sub)

mydf.myattr1 = 1
mydf_cp1 = MyDF(mydf)
mydf_cp2 = mydf.copy()
print mydf_cp1.myattr1, mydf_cp2.myattr1

相关问题更多 >

编程相关推荐

热门问题

热门文章