在维基百科页面中获取“另见”部分 - 问答 - Python中文网

在维基百科页面中获取“另见”部分

2024-04-19 04:29:16 发布

您现在位置：Python中文网/ 问答频道 /正文

男 | 程序猿一只，喜欢编程写python代码。

我想获取wikipedia文章中“See also”部分中的所有链接，但是wikipediaapi for python（Wikipedia documentation）没有提供这些信息。即使我使用“page”函数获取页面的全部内容来提取“See also”部分，该部分通常是空的！（如果你用你的浏览器看一下这个网页，它不会是空的！）。在

所以，我认为，提取这些信息的唯一方法就是解析HTML页面。任何有助于我在不解析HTML页面的情况下提取这些信息的建议都是非常感谢的。在

Tags：函数信息 for 链接 html documentation 文章 page

1条回答

网友

1楼 · 发布于 2024-04-19 04:29:16

对我来说是个合理的问题。无论如何，您可能仍然需要解析HTML，但是restbaseapi提供了一个“mobilecomptions”端点，它按节标题对输出的HTML进行分组。API端点如下所示：

https://en.wikipedia.org/api/rest_v1/page/mobile-sections/Facebook

Documentation provided here

API响应包含一个具有如下“sections”属性的对象

"remaining": {
    "sections": [
      {
        "id": 39,
        "text": ...,
        "toclevel": 1,
        "line": "See also",
        "anchor": "See_also"
      },
    ...
    ]
}

通过该响应，您可以从line属性与字符串“See also”匹配的部分中选择HTML。在

相关问题更多 >

编程相关推荐

热门问题

热门文章