我有3个形状的数组中的一些数据:
docLengths.shape = (10000,)
docIds.shape = (10000,)
docCounts.shape = (68,10000)
我想获得一些I的相对计数及其平均值和标准偏差:
docRelCounts = docCounts/docLengths
relCountMeans = docRelCounts[i,:].mean()
relCountDeviations = docRelCounts[i,:].std()
问题是,doclength的某些元素为零。这在docRelCounts中产生NaN元素,因此平均值和偏差也是NaN。你知道吗
我需要删除零长度文档的数据。我可以写一个循环,定位零长度的doc并删除它们,但我希望一些numpy数组魔法能更有效地做到这一点。有什么想法吗?你知道吗
使用nanmean和nanstd fromscipy.统计地址:
试试这个:
np.isnan
返回一个与True
形状相同的数组,其中原始数组是NaN
,其他地方是False
。并且np.invert
将其反转,然后得到goodDocRelCounts
,其中只有非NaN
的值。你知道吗最后我做到了这一点(在我看到eumiro的答案之前,我已经解决了这个问题——它有点简单,但在其他方面没有更好,只是不同而已,所以我想我应该包括它:)
相关问题 更多 >
编程相关推荐