从tsv文件获取和合并数据

2024-04-19 18:39:48 发布

您现在位置:Python中文网/ 问答频道 /正文

在我们的数据挖掘论文中,我们必须通过75/25训练/测试中的益处、副作用评论来预测预期的副作用。该数据集是一个.tsv文件,包含列URLDugName、rating、Effectivity、condition、benefitReview、sideEffectReview和commentsReview

我的问题是:

我想从benefitReview、sideEffectReview和commentsReview列中读取数据,并将文本合并到一个list/dict/lexicon中(无论是什么最佳解决方案)。在使用分类之前,我可以删除停止词并对数据进行词干或柠檬化等,然后开始前进

我可以阅读这个文件,但我不知道或不理解如何将这三列分开,并将其附加到列表或词典中


Tags: 文件数据数据挖掘tsv评论读取数据condition副作用
2条回答

根据您在项目其余部分中使用的内容,您可以使用:

  • 内置的csv模块
  • {a2}包{a3}
  • {a4}包{a5}

前两个讨论“逗号分隔值”,但他们选择切换到制表符分隔值;第三个默认为空白,其中包括制表符,或者您也可以显式指定它(如果您的数据包含空格)

内置的CSV库为您逐个提供行,以便在“for”循环中使用。Pandas和Numpy包CSV阅读器分别为您提供Pandas数据帧或Numpy数组

要在它们之间做出选择,请检查您正在使用的其他库所期望的是什么;以正确的形式直接加载数据是最容易的。如果你还不确定,熊猫在探索数据方面是相当不错的

熊猫包是一个可以很好地处理列和.csv文件的包。这使您可以创建易于操作的数据帧

https://pypi.org/project/pandas/

相关问题 更多 >