python解析字符串后的url
我想从一个网址(链接)中提取一个字符串。这个字符串是在一个 <h3></h3>
标签里的。
link = http://www.test.com/page.html
Content of link: <h3>Text here</h3>
有没有什么简单优雅的方法,先获取 page.html 的内容或源代码,然后再提取这个链接呢?谢谢!
4 个回答
1
你可以使用 URLLib2 来获取网址的内容:
http://docs.python.org/library/urllib2.html
然后,你可以利用 Python 库中的 HTML 解析器来找到你需要的内容:
2
我推荐使用Beautiful Soup。这是一个很不错的工具,可以处理那些格式不太好的HTML网页(大多数情况下,你不需要担心网页的结构是否完美)。
1
这段代码的目的是为了实现某种功能,具体来说,它可能是在处理数据、执行计算或者与用户交互。代码块中的内容可能包含一些变量、函数或者控制结构,比如循环和条件判断,这些都是编程中常用的基本元素。
如果你是编程小白,可以把这段代码想象成一个食谱,里面列出了做某道菜所需的材料和步骤。每一行代码就像是一个步骤,告诉计算机该做什么。理解这些步骤的顺序和逻辑,就能明白整个程序是如何运作的。
总之,代码块是程序的一部分,它通过一系列指令来实现特定的功能。理解这些指令的含义和作用,是学习编程的重要一步。
import urllib2
url="http://www.test.com/page.html"
page=urllib2.urlopen(url)
data=page.read()
for item in data.split("</h3>"):
if "<h3>" in item:
print item.split("<h3>")[1]