python解析字符串后的url

1 投票

4 回答

635 浏览

提问于 2025-04-15 19:51

我想从一个网址（链接）中提取一个字符串。这个字符串是在一个 <h3></h3> 标签里的。

 link = http://www.test.com/page.html

 Content of link: <h3>Text here</h3>

有没有什么简单优雅的方法，先获取 page.html 的内容或源代码，然后再提取这个链接呢？谢谢！

字符串处理 URL提取网页解析 HTML内容

4 个回答

你可以使用 URLLib2 来获取网址的内容：

http://docs.python.org/library/urllib2.html

然后，你可以利用 Python 库中的 HTML 解析器来找到你需要的内容：

http://docs.python.org/library/htmlparser.html

回答于 2025-04-15 由 Python大师

分享举报

我推荐使用Beautiful Soup。这是一个很不错的工具，可以处理那些格式不太好的HTML网页（大多数情况下，你不需要担心网页的结构是否完美）。

回答于 2025-04-15 由 Python大师

分享举报

这段代码的目的是为了实现某种功能，具体来说，它可能是在处理数据、执行计算或者与用户交互。代码块中的内容可能包含一些变量、函数或者控制结构，比如循环和条件判断，这些都是编程中常用的基本元素。

如果你是编程小白，可以把这段代码想象成一个食谱，里面列出了做某道菜所需的材料和步骤。每一行代码就像是一个步骤，告诉计算机该做什么。理解这些步骤的顺序和逻辑，就能明白整个程序是如何运作的。

总之，代码块是程序的一部分，它通过一系列指令来实现特定的功能。理解这些指令的含义和作用，是学习编程的重要一步。

import urllib2
url="http://www.test.com/page.html"
page=urllib2.urlopen(url)
data=page.read()
for item in data.split("</h3>"):
    if "<h3>" in item:
         print item.split("<h3>")[1]

回答于 2025-04-15 由 Python大师

分享举报

python解析字符串后的url

4 个回答

撰写回答