2024-03-28 13:35:42 发布
网友
我正在分析通话记录并尝试使用doc2vec,但我找不到合适的应用方法
我试着将单词转换成词根,稍后我将试着去掉停止词(它们是词根)
我希望了解每一个对话是关于什么的(可以是几句或更多的话)。你能建议我一个特定的方式或样本项目吗
请注意,许多word2vec/doc2vev项目不应用词干分析(将单词转换为词根),也不删除停止词。对于足够大的训练语料库,这两个步骤都不是绝对必要的
您似乎正处于一个非常初级的起点,因此您应该学习Doc2Vec(以及更一般的“主题建模”)的在线示例。在安装目录docs/notebooks中gensim包含了几个演示Doc2Vec基本和更高级用法的Jupyter笔记本。您也可以通过以下网址在线查看这些内容:
Doc2Vec
docs/notebooks
gensim
https://github.com/RaRe-Technologies/gensim/blob/develop/docs/notebooks/
doc2vec-lee.ipynb:玩具大小数据使用的非常简单的示例
doc2vec-lee.ipynb
doc2vec-IMDB.ipynb:基于原始“段落向量”(Doc2Vec)研究论文中包含的电影评论实验的更高级示例
doc2vec-IMDB.ipynb
doc2vec-wikipedia.ipynb:大得多;使用数百万维基百科文章的长期运行模型
doc2vec-wikipedia.ipynb
虽然您可以在线浏览这些内容,但您可以并且应该在本地一步一步地运行它们,作为一种学习练习,然后作为一种探索对它们稍加修改,最后使用它们(以及其他来源)作为如何解决您自己问题的指南
请注意,许多word2vec/doc2vev项目不应用词干分析(将单词转换为词根),也不删除停止词。对于足够大的训练语料库,这两个步骤都不是绝对必要的
您似乎正处于一个非常初级的起点,因此您应该学习
Doc2Vec
(以及更一般的“主题建模”)的在线示例。在安装目录docs/notebooks
中gensim
包含了几个演示Doc2Vec
基本和更高级用法的Jupyter笔记本。您也可以通过以下网址在线查看这些内容:https://github.com/RaRe-Technologies/gensim/blob/develop/docs/notebooks/
doc2vec-lee.ipynb
:玩具大小数据使用的非常简单的示例doc2vec-IMDB.ipynb
:基于原始“段落向量”(Doc2Vec
)研究论文中包含的电影评论实验的更高级示例doc2vec-wikipedia.ipynb
:大得多;使用数百万维基百科文章的长期运行模型虽然您可以在线浏览这些内容,但您可以并且应该在本地一步一步地运行它们,作为一种学习练习,然后作为一种探索对它们稍加修改,最后使用它们(以及其他来源)作为如何解决您自己问题的指南
相关问题 更多 >
编程相关推荐