靓汤不能搞新闻标题

2024-04-16 21:30:34 发布

您现在位置:Python中文网/ 问答频道 /正文

from bs4 import BeautifulSoup
import requests
url ="http://www.basketnews.lt/lygos/59-nacionaline-krepsinio-asociacija/2013/naujienos.html"
r = requests.get(url)
soup = BeautifulSoup(r.text)

naujienos = soup.findAll('a', {'class':'title'})

print naujienos

以下是HTML的重要部分:

<div class="title">

    <a href="/news-73147-rockets-veikiausiai-pasiliks-mchalea.html"></a>
    <span class="feedbacks"></span>

</div>

我得到一张空名单。我的错在哪里?你知道吗

编辑:

谢谢,成功了。现在我想打印新闻标题。我就是这么做的:

nba = soup.select('div.title > a')

for i in nba:
   print ""+i.string+"\n"

我最多得到5个标题,出现错误:无法连接'str'和'NoneType'对象


Tags: fromimportdivurltitlehtmlrequestsclass
1条回答
网友
1楼 · 发布于 2024-04-16 21:30:34
soup.findAll('a', {'class':'title'})

这就是说,给我所有也有class="title"a标记。那显然不是你想做的。你知道吗

我认为您需要a标记,这些标记是class="title"标记的直接后代。您可以尝试使用css选择器:

soup.select('div.title > a')
Out[58]: 
[<a href="/news-73150-blatcheas-garantuoju-kad-laimesime.html">Blatche'as: âGarantuoju, kad laimÄsimeâ</a>,
 <a href="/news-73147-rockets-veikiausiai-pasiliks-mchalea.html">âRocketsâ veikiausiai pasiliks McHaleâÄ
</a>,
# snip lots of other links
]

相关问题 更多 >