解析网页数据和提取字段的机器学习模型 - 问答 - Python中文网

解析网页数据和提取字段的机器学习模型

2024-05-28 22:58:18 发布

您现在位置：Python中文网/ 问答频道 /正文

男 | 程序猿一只，喜欢编程写python代码。

我需要从不同的网站提取公共数据。就像我想抓取100个活动网站，并提取相同的信息，如活动名称、价格、位置等。每个网站都有不同的布局，所以我手工编写抓取规则。有一些像diffbot这样的服务可以自动提取这些信息。他们正在使用某种AI/ML模型。我想知道这是一个命名实体任务还是可以使用LSTM

Tags：模型实体名称信息网站规则价格布局

2条回答

网友

1楼 · 编辑于 2024-05-28 22:58:18

如果没有关于目标网站结构/格式的更多细节，很难超越一般答案

如果这些大部分都是基于文本的（即自然文本，而不是表和全部的半结构化），那么它看起来就像是命名实体的经典信息提取（ie）。LSTM是一种可用于此目的的体系结构，就像spacy中的体系结构一样。许多其他经典的NLP库（如stanfordNLP）也可以使用（不一定与深度学习一起使用）

如何作出选择？这将取决于这些页面中的语言类型。如果它是更自然的英语，那么DL模型可能会更好。如果这是一个领域术语（需要学习的小数据集），您可能需要研究更多基于语法的分析

网友

2楼 · 编辑于 2024-05-28 22:58:18

要添加到前面的响应中，不要忘记检查您所抓取的网站是否有API，这可以大大减少编码所花费的时间，并且在网站更改布局时更加可靠

你可能已经检查过了，但提醒一下也没什么坏处

相关问题更多 >

编程相关推荐

热门问题

热门文章