从不同领域的网站中提取常见问题内容

2024-04-25 21:04:08 发布

您现在位置：Python中文网/ 问答频道 /正文

9835

网友

男 | 程序猿一只，喜欢编程写python代码。

目前，我已经使用Scrapy和bs4做了个人网站的常见问题的内容网页爬行

但是，由于不同网站的html结构格式不同，每当我爬网新的faq页面时，我都需要调整标记或xpath。

我发现google的Dialogflow引入了“知识库”功能，用户只需将一个faq网站解析到自己的系统中，就可以生成faq列表

现在，我想办法加快我的目标：

从不同网站抓取常见问题数据

我可以知道有没有什么库可以用来加速这个过程吗？或者有没有办法下载生成的Q&；来自Dialogflow客户端的配对。

Tags：标记网页内容网站 html 格式 google 页面

0条回答

目前没有回答

编程相关推荐

java遍历数组并检查项的值
在名为“”的DispatcherServlet中找不到URI为[/api/encodedurl]的HTTP请求的java映射
java如何在所有JUnit测试中集成Spring Instrument javaagent
java从Axis2生成的存根获取端点URL
使用Gson从JSON转换为POJO的java问题
java如何在安卓中循环声音
java客户端中的elasticsearch geohash方面
我想用Java从右向左打印*请提供输入
java在安卓中上传一个或多个图像
调试如何在Netbeans中调试Java Web应用程序？

热门问题

是什么导致导入库时出现这种延迟？
7 个回答
是什么导致导入时提交大内存
7 个回答
是什么导致导入错误：“没有名为modules的模块”？
3 个回答
是什么导致局部变量引用错误？
11 个回答
是什么导致循环中的属性错误以及如何解决此问题
9 个回答
是什么导致我使用kivy的代码内存泄漏？
5 个回答
是什么导致我在python2.7中的代码中出现这种无意的无限循环？
11 个回答
是什么导致我的ATLAS工具在尝试构建时失败？
7 个回答
是什么导致我的Brainfuck transpiler的输出C文件中出现中止陷阱？
4 个回答
是什么导致我的Django文件上载代码内存峰值？
2 个回答
是什么导致我的json文件在添加kivy小部件后重置？
5 个回答
是什么导致我的python 404检查脚本崩溃/冻结？
10 个回答
是什么导致我的Python脚本中出现这种无效语法错误？
5 个回答
是什么导致我的while循环持续时间延长到12分钟？
2 个回答
是什么导致我的代码膨胀文本文件的大小？
11 个回答
是什么导致我的函数中出现“ValueError:cannot convert float NaN to integer”
5 个回答
是什么导致我的安跑的时间大大减少了？
8 个回答
是什么导致我的延迟触发，除了添加回调、启动反应器和连接端点之外什么都没做？
2 个回答
是什么导致我的条件[Python]中出现缩进错误
6 个回答
是什么导致我的游戏有非常低的fps
1 个回答

从不同领域的网站中提取常见问题内容

相关问题更多 >

编程相关推荐

热门问题

热门文章

从不同领域的网站中提取常见问题内容

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >