如何处理有关分析通话记录并获得有关topi的有意义结果的项目

2024-03-28 13:35:42 发布

您现在位置:Python中文网/ 问答频道 /正文

我正在分析通话记录并尝试使用doc2vec,但我找不到合适的应用方法

我试着将单词转换成词根,稍后我将试着去掉停止词(它们是词根)

我希望了解每一个对话是关于什么的(可以是几句或更多的话)。你能建议我一个特定的方式或样本项目吗


Tags: 项目方法方式对话单词建议样本词根
1条回答
网友
1楼 · 发布于 2024-03-28 13:35:42

请注意,许多word2vec/doc2vev项目应用词干分析(将单词转换为词根),也不删除停止词。对于足够大的训练语料库,这两个步骤都不是绝对必要的

您似乎正处于一个非常初级的起点,因此您应该学习Doc2Vec(以及更一般的“主题建模”)的在线示例。在安装目录docs/notebooksgensim包含了几个演示Doc2Vec基本和更高级用法的Jupyter笔记本。您也可以通过以下网址在线查看这些内容:

https://github.com/RaRe-Technologies/gensim/blob/develop/docs/notebooks/

doc2vec-lee.ipynb:玩具大小数据使用的非常简单的示例

doc2vec-IMDB.ipynb:基于原始“段落向量”(Doc2Vec)研究论文中包含的电影评论实验的更高级示例

doc2vec-wikipedia.ipynb:大得多;使用数百万维基百科文章的长期运行模型

虽然您可以在线浏览这些内容,但您可以并且应该在本地一步一步地运行它们,作为一种学习练习,然后作为一种探索对它们稍加修改,最后使用它们(以及其他来源)作为如何解决您自己问题的指南

相关问题 更多 >