我对熊猫很陌生(几个月),我开始建立一个基于熊猫数据阵列的项目
这样的熊猫数据数组将包含在一个表格中,表格中包含文本集合中存在的不同类型的单词(约10万个文档,约200个关键字)
例如,想象一下单词“car”和单词“motorbike”以及编号为doc1、doc2等的文档
我该怎么安排呢? a) 每一列的名称都是文件编号和索引“car”和“motorbike”或 b) 反之;索引是文档编号,列标题是单词
我对熊猫没有足够的了解,无法预见这样的选择会带来什么后果。所有代码都将基于该决定
顺便说一句,数组不是静态的,每隔一段时间就会有更多的文档和更多的单词添加到数组中
你推荐什么?a还是b?为什么
谢谢
通常在pandas中,我们遵循一种做法,即实例是列(这里是文档编号),功能是列(这里是单词)。因此,我们更倾向于使用“b”方法
相关问题 更多 >
编程相关推荐