想要获取https://en.wikipedia.org/wiki/Air_Alg%C3%A9rie的信息框内容吗
我跟着this article。你知道吗
import requests
from lxml import etree
url='https://en.wikipedia.org/wiki/Air_Alg%C3%A9rie'
req = requests.get(url)
store = etree.fromstring(req.text)
# this will give Motto portion of above
# URL's info box of Wikipedia's page
output = store.xpath('//table[@class="infobox vcard"]/tr[th/text()="Destinations"]/td/i')
# printing the text portion
print output[0].text
即使需求文本存在,返回null。 如何获取此信息框内容? 尤其是
国际航空运输协会国际民航组织 阿达
我需要国际航空运输协会,国际民航组织代码。 请帮忙。你知道吗
还要记住,DBPedia不是与Wikipedia实时同步的,在Wikipedia版本和DBPedia中相应条目之间可能会有几个月的延迟。我不想要百科全书的内容。你知道吗
要获得
AH
、DAH
、AIR ALGERIE
,可以使用至于xpath:在这个HTML中,在
<table>
和<tr>
之间有<tbody>
,所以必须在xpath中使用它或者使用
//
,即使在<table>
和<tr>
之间有更多的标记,它也能工作我还跳过了末尾的
<i>
,因为行"Destinations"
没有使用<i>
结果
编辑:
我使用另一个xpath获取名称
"IATA"
、"ICAO"
、"Callsign"
,然后使用zip()
将它们与"AH"
、"DAH"
、"AIR ALGERIE"
分组结果:
相关问题 更多 >
编程相关推荐