从不同领域的网站中提取常见问题内容

2024-04-25 21:04:08 发布

您现在位置:Python中文网/ 问答频道 /正文

目前,我已经使用Scrapy和bs4做了个人网站的常见问题的内容网页爬行

但是,由于不同网站的html结构格式不同,每当我爬网新的faq页面时,我都需要调整标记或xpath。

我发现google的Dialogflow引入了“知识库”功能,用户只需将一个faq网站解析到自己的系统中,就可以生成faq列表

现在,我想办法加快我的目标:

  • 从不同网站抓取常见问题数据

我可以知道有没有什么库可以用来加速这个过程吗? 或者有没有办法下载生成的Q&;来自Dialogflow客户端的配对。


Tags: 标记网页内容网站html格式google页面