使用NLP/语义相似度从与一组预定义准则相关的大型文档中提取关键字的方法

2024-06-06 14:06:23 发布

您现在位置:Python中文网/ 问答频道 /正文

我需要的建议如何提取关键字从一个大的文件。关键字应该与我们定义的预期搜索结果内联

例如

我需要所有者的名字,办公室在哪里,当一个公司的文件被提供时,运营行业是什么,以及定义的一组词是

{owner, director, office, industry...}-(1)

预期的输出应该是这样的

{Mr.Smith James, ,Main Street, Financial Banking}-(2)

我在寻找一种与语义相似性相关的方法,从中提取包含与给定语料库(1)相似的单词的句子,并使用词性标记从这些句子中提取名词

如果能够提供更多的资源来支持这一做法,这将是一个有益的建议


Tags: 文件定义公司关键字名字建议句子smith
1条回答
网友
1楼 · 发布于 2024-06-06 14:06:23

你想做的被称为Named Entity Recognition

在Python中有一个名为SpaCy的流行库可用于此。标准模型能够检测到18 different entity types,这是一个相当好的数量

人名和公司名应该容易提取,而整个地址和行业可能更难提取。也许你需要在这些实体类型上训练你自己的模型。SpaCy还提供了一个API来训练您自己的模型。 请注意,你需要相当多的训练数据才能有好的结果。从每种实体类型1000个示例开始,看看是否足以满足您的需要。POS可以用作一种功能

如果您的数据是非结构化的,这可能是最适合的方法之一。如果你有更多的结构化数据,你可以利用它

相关问题 更多 >