使用NLP提取段落/文档的主题

2024-05-14 18:58:45 发布

您现在位置:Python中文网/ 问答频道 /正文

我试着建立一个主题提取器,简单地说,阅读一段中的所有句子,并对段落/文章/文档的主题进行计算猜测。我甚至会根据我的进步把它升级到summize。在

因特网上有很多信息。很难理解所有这些并选择正确的路径,因为我不太精通NLP。在

我希望有经验的人能给我指明正确的方向。在

  1. 我不是在寻找一个语言计算模型,而是一个n-gram或神经网络方法,最近已经做了一些事情。

  2. 我也在研究使用n-grams的共指消解,如果有人对此有任何线索,我将不胜感激。稍微熟悉斯坦福核心解算器,但不想按原样使用。

欢迎提供任何信息、想法和意见。在


Tags: 文档模型路径语言信息主题nlp文章
1条回答
网友
1楼 · 发布于 2024-05-14 18:58:45

@匕首

为了找到整个文档的“主题”,有几种方法可以尝试和研究。无监督的方法会更快,并且会让您开始使用,但可能无法区分具有相似主题的密切相关文档。这些也不需要神经网络。监督技术将能够更好地识别相似文档中的差异,但需要网络培训。你应该能够很容易地找到关于用你想要的编程语言实现这些的博客。在

无监督

  • 使用TF-IDF对文本词进行K-均值聚类-see intro here
  • 潜在Dirichlet分配

监督

  • 基于支持向量机、Logistic回归和神经网络的文本分类模型
  • 基于神经网络的LSTM/RNN模型

神经网络模型首先需要对一组已知的文档进行相关主题的训练。它们最适合从模型中选择一个最有可能的主题,但也可能有多类主题实现。在

如果您将示例数据和/或域随编程语言一起发布,我可以提供一些更详细的信息供您探索。在

相关问题 更多 >

    热门问题