2024-04-19 04:29:16 发布
网友
我想获取wikipedia文章中“See also”部分中的所有链接,但是wikipediaapi for python(Wikipedia documentation)没有提供这些信息。即使我使用“page”函数获取页面的全部内容来提取“See also”部分,该部分通常是空的!(如果你用你的浏览器看一下这个网页,它不会是空的!)。在
所以,我认为,提取这些信息的唯一方法就是解析HTML页面。任何有助于我在不解析HTML页面的情况下提取这些信息的建议都是非常感谢的。在
对我来说是个合理的问题。无论如何,您可能仍然需要解析HTML,但是restbaseapi提供了一个“mobilecomptions”端点,它按节标题对输出的HTML进行分组。API端点如下所示:
https://en.wikipedia.org/api/rest_v1/page/mobile-sections/Facebook
Documentation provided here
API响应包含一个具有如下“sections”属性的对象
"remaining": { "sections": [ { "id": 39, "text": ..., "toclevel": 1, "line": "See also", "anchor": "See_also" }, ... ] }
通过该响应,您可以从line属性与字符串“See also”匹配的部分中选择HTML。在
line
对我来说是个合理的问题。无论如何,您可能仍然需要解析HTML,但是restbaseapi提供了一个“mobilecomptions”端点,它按节标题对输出的HTML进行分组。API端点如下所示:
https://en.wikipedia.org/api/rest_v1/page/mobile-sections/Facebook
Documentation provided here
API响应包含一个具有如下“sections”属性的对象
通过该响应,您可以从
line
属性与字符串“See also”匹配的部分中选择HTML。在相关问题 更多 >
编程相关推荐