Kmeans,bag of word,word嵌入文本分类CSV文件并检索相关数据

2024-04-29 14:44:08 发布

您现在位置:Python中文网/ 问答频道 /正文

我有两件事要做。你知道吗

1)我必须提取任何包含发票数据的CVS文件的头文件。 具体而言:发票号码、地址、位置、实物。 我被要求为这个任务创建一个文本分类器,因此分类器将遍历任何CVS文件并识别这4个标题。你知道吗

2)在分类器识别出4个单词后,我必须找到附加该列的数据并创建一个类。你知道吗

我研究了这个问题,我认为必须采用的三种方法是: 1) 坏话 2) 文字嵌入 3) K-均值聚类

单词包可以识别单词,但它没有给我单词本身的位置,以便我去抓取列并创建类。你知道吗

我相信,对于这个任务来说,wordembedded过于复杂了,即使给我文件中单词的位置也太耗时了

K-means似乎简单而有效,它告诉我单词在哪里。你知道吗

我开始编码前的问题

我错过什么了吗。我的推理正确吗? 最重要的是第二个问题 一旦在CSV文件中确定了单词的位置,我将如何将其转换为编码,以便将数据附加到该列中


Tags: 文件数据方法文本标题编码头文件分类器
1条回答
网友
1楼 · 发布于 2024-04-29 14:44:08

我只想:

  • 查看文件的第一行(标题);
    • filter在要查找的列名之外,使用enumerate,这样结果将包含列索引
    • 从筛选结果中检索列索引
  • 迭代文件的其余部分;
    • 使用这些索引从每行/每行中提取特定列的数据
      • 把这些数据放在一个容器中以备以后使用(可能使用一个列表)

相关问题 更多 >