解析网页数据和提取字段的机器学习模型

2024-05-28 22:58:18 发布

您现在位置:Python中文网/ 问答频道 /正文

我需要从不同的网站提取公共数据。就像我想抓取100个活动网站,并提取相同的信息,如活动名称、价格、位置等。每个网站都有不同的布局,所以我手工编写抓取规则。有一些像diffbot这样的服务可以自动提取这些信息。他们正在使用某种AI/ML模型。我想知道这是一个命名实体任务还是可以使用LSTM


Tags: 模型实体名称信息网站规则价格布局
2条回答

如果没有关于目标网站结构/格式的更多细节,很难超越一般答案

如果这些大部分都是基于文本的(即自然文本,而不是表和全部的半结构化),那么它看起来就像是命名实体的经典信息提取(ie)。LSTM是一种可用于此目的的体系结构,就像spacy中的体系结构一样。许多其他经典的NLP库(如stanfordNLP)也可以使用(不一定与深度学习一起使用)

如何作出选择?这将取决于这些页面中的语言类型。如果它是更自然的英语,那么DL模型可能会更好。如果这是一个领域术语(需要学习的小数据集),您可能需要研究更多基于语法的分析

要添加到前面的响应中,不要忘记检查您所抓取的网站是否有API,这可以大大减少编码所花费的时间,并且在网站更改布局时更加可靠

你可能已经检查过了,但提醒一下也没什么坏处

相关问题 更多 >

    热门问题