使用Beautiful Soup抓取：为什么get_text方法无法返回该元素的文本？

Question

最近我在做一个Python项目，主要是从一些网站上抓取代理服务器的信息。遇到的问题是，当我试图从一个知名的代理网站抓取数据时，使用Beautiful Soup这个工具找IP地址时，它的表现和我预期的不太一样。我想要抓取每个代理的IP地址，但当我在合适的元素上使用Beautiful Soup的.get_text()方法时，得到的结果却是这样。

...

.UbZT{display:none}
.f5fa{display:inline}
.Glj2{display:none}
.cUce{display:inline}
.zjUZ{display:none}
.GzLS{display:inline}
98120169.117.186373161218218.83839393101138154165203242 

...

这是我想要解析的元素（包含IP的td标签）：

<td><span><style>
.lLXJ{display:none}
.qRCB{display:inline}
.qC69{display:none}
.V0zO{display:inline}
</style><span style="display: inline">190</span><span class="V0zO">.</span><span 
style="display:none">2</span><div style="display:none">20</div><span 
style="display:none">51</span><span style="display:none">56</span><div 
style="display:none">56</div><span style="display:none">61</span><span 
class="lLXJ">61</span><div style="display:none">61</div><span 
class="qC69">110</span><div 
style="display:none">110</div><span style="display:none">135</span><div 
style="display:none">135</div><span class="V0zO">221</span><span 
style="display:none">234</span><div style="display:none">234</div><span class="147">.
</span><span style="display: inline">29</span><div style="display:none">44</div><span 
style="display:none">228</span><span></span><span class="qC69">248</span>.<span 
style="display:none">7</span><span></span><span style="display:none">44</span><span 
class="qC69">44</span><span class="qC69">80</span><span></span><span 
style="display:none">85</span><span class="lLXJ">85</span><div 
style="display:none">85</div><span class="qC69">100</span><div 
style="display:none">100</div><span></span><span class="qC69">130</span><div 
style="display:none">130</div><div style="display:none">168</div>212<span 
style="display:none">230</span><span class="qC69">230</span><div 
style="display:none">230</div></span></td>

这个元素的实际文本就是代理的IP地址。

这是我代码的一部分：

# Hide My Ass
pages = ['https://www.hidemyass.com/proxy-list']

for page in pages:
    hidemyass = Soup(requests.get(page).text)
    rows = hidemyass.find_all(lambda tag:tag.name=='tr' and tag.has_attr('class'))
    for row in rows:
        fields = row.find_all('td')
        # get ip, port, and protocol for proxy
        ip = fields[1].get_text()            # <-- Here's the above td element
        port = fields[2].get_text()
        protocol = fields[6].get_text().lower()
        # store proxy in database
        db.add_proxy({'ip':ip,'port':port,'protocol':protocol})
        num_found += 1

有没有什么正确的方法来解析这个元素，这样输出的结果就不会像这样混乱呢？我本以为Beautiful Soup的.get_text()方法会返回网站上可见的文本，但看来并不是这样。感谢任何帮助或建议。

数据提取代理服务器 beautiful soup 网络爬虫网页解析数据抓取 html元素 get_text方法

使用Beautiful Soup抓取：为什么get_text方法无法返回该元素的文本？

2 个回答

撰写回答