我试图从一个HTML文件中获取数据。看起来像这样:
from bs4 import BeautifulSoup as bs
import urllib
redditPage1 = "http://redditlist.com/sfw"
r=urllib.urlopen(redditPage1).read()
soup = bs(r)
现在我想让reddit版主(或subredditor,他们被称为subredditor)按其订户数量的顺序排列在一个列表中。为此,我只需要查看这行代码后面的数据:
^{pr2}$这一行前面的所有内容都是无关的,关于这行后面的subredditor的所有条目如下所示:
<div class="listing-item" data-target-filter="sfw" data-target-subreddit="funny">
<div class="offset-anchor" id="funny-subscribers"></div>
<span class="rank-value">1</span>
<span class="subreddit-info-panel-toggle sfw"> <div>i</div> </span>
<span class="subreddit-url">
<a class="sfw" href="http://reddit.com/r/funny" target="_blank">funny</a>
</span>
<span class="listing-stat">18,197,786</span>
</div>
我该怎么做才能提取出这行后面而不是前面的subredditor名称?在
让你的代码更具可读性。在
或者使用
^{pr2}$BeautifulSoup
如果您喜欢:试试这个:
尝试找到
<h3 class="listing-header">Subscribers</h3>
,然后得到父元素div
,作用域将限制为Subscribers
div。然后找到所有类为listing-item
的div,循环它们以获得内部元素<a>
的文本(名称):相关问题 更多 >
编程相关推荐