在statsmodels中有没有一种忽略NaNs的通用方法?在
我正在使用statsmodels的AnovaRM
函数对各种数据集运行重复的度量值anova。不同行的不同列中缺少值。当运行AnovaRM
时,它显然会为F和p值返回nan
。在
我试过了
aovrm = AnovaRM(df3, 'RT', 'id', within=['iv'], missing = 'drop')
正如Ignoring missing values in multiple OLS regression with statsmodels中所建议的,但是这似乎对AnovaRM
不起作用。在
到目前为止,我只是简单地排除了缺少数据点的主题,但这是a)确实不是重点,b)对于许多数据集来说根本不可行。在
从AnovaRM docstring
“此实现目前只支持完全平衡的设计。”
https://github.com/statsmodels/statsmodels/blob/master/statsmodels/stats/anova.py#L413 (AnvaRM尚未添加到联机文档中。)
因此,模型的一般缺失选项不适用于AnovaRM。这主要是因为重复测量方差分析背后的限制性假设。在
作为替代方案,文献中的一般建议是使用混合效应模型,这在statmodels的MixedLM中可用。 其他的选择是使用GEE或OLS的固定效果。在
相关问题 更多 >
编程相关推荐