如何为a href执行Regex？

<div class="user-info" style="position:absolute;top:5px;left:5px;z-index:1"> <a href="/kjrphotography" target="_blank"> <img class="photo_user" src="http://images.ak.instagram.com/profiles/profile_507998691_75sq_1376497436.jpg" width="40" height="40" title="kjrphotography" border="0"> </a> <span class="usertag" style="display: none;">@kjrphotography</span> </div>

2条回答

网友

1楼 · 编辑于 2024-04-19 22:51:24

from lxml import html
xml = html.fragments_fromstring("""<div class="user-info" style="position:absolute;top:5px;left:5px;z-index:1">

<a href="/kjrphotography" target="_blank">

<img class="photo_user" src="http://images.ak.instagram.com/profiles/profile_507998691_75sq_1376497436.jpg" width="40" height="40" title="kjrphotography" border="0">

</a>

<span class="usertag" style="display: none;">@kjrphotography</span>

</div>""")[0]

xml.find('span').text

返回'@kjphotography'

网友

2楼 · 编辑于 2024-04-19 22:51:24

当然最好也最容易使用HTML，而html是您的HTML页面-下面是一个使用BeautifulSoup的示例：

from bs4 import BeautifulSoup
soup = BeautifulSoup(html)
print soup.select('.user-info a')[0]['href']
# /kjrphotography

你会发现这比把HTML当作字符串更简单，也更健壮。。。你知道吗

或者：

for info in soup.find_all('div', class_='user-info'):
    print 'href:', info.find('a', href=True)['href']
    print 'user:', info.find('span', class_='usertag').text

#href: /kjrphotography
#user: @kjrphotography

相关问题更多 >

编程相关推荐

热门问题

热门文章