用Python从Wikipedia的Infobox获取文本

import requests from lxml import etree url='https://en.wikipedia.org/wiki/Air_Alg%C3%A9rie' req = requests.get(url) store = etree.fromstring(req.text) # this will give Motto portion of above # URL's info box of Wikipedia's page output = store.xpath('//table[@class="infobox vcard"]/tr[th/text()="Destinations"]/td/i') # printing the text portion print output[0].text

1条回答

网友

1楼 · 发布于 2024-04-26 04:00:31

要获得AH、DAH、AIR ALGERIE，可以使用

xpath( '//td[@class="nickname"]' )

至于xpath：在这个HTML中，在<table>和<tr>之间有<tbody>，所以必须在xpath中使用它

'//table[@class="infobox vcard"]/tbody/tr[th/text()="Destinations"]/td'

或者使用//，即使在<table>和<tr>之间有更多的标记，它也能工作

'//table[@class="infobox vcard"]//tr[th/text()="Destinations"]/td'

我还跳过了末尾的<i>，因为行"Destinations"没有使用<i>

import requests 
from lxml import etree 

url='https://en.wikipedia.org/wiki/Air_Alg%C3%A9rie'

req = requests.get(url)  
store = etree.fromstring(req.text) 

output = store.xpath('//td[@class="nickname"]')  
for x in output:
    print(x.text.strip())

#output = store.xpath('//table[@class="infobox vcard"]//tr[th/text()="Destinations"]/td')
output = store.xpath('//table[@class="infobox vcard"]/tbody/tr[th/text()="Destinations"]/td')
print(output[0].text)

结果

AH
DAH
AIR ALGERIE
69

编辑：

我使用另一个xpath获取名称"IATA"、"ICAO"、"Callsign"，然后使用zip()将它们与"AH"、"DAH"、"AIR ALGERIE"分组

import requests 
from lxml import etree 

url='https://en.wikipedia.org/wiki/Air_Alg%C3%A9rie'

req = requests.get(url)  
store = etree.fromstring(req.text) 

keys = store.xpath('//table[@class="infobox vcard"]//table//tr[1]//a')
#for x in keys:
#    print(x.text.strip())

values = store.xpath('//td[@class="nickname"]')  
#for x in values:
#    print(x.text.strip())

some_dict = dict()

for k, v in zip(keys, values):
    k = k.text.strip()
    v = v.text.strip()
    some_dict[k] = v
    print(k, '=', v)

print(some_dict)

结果：

IATA = AH
ICAO = DAH
Callsign = AIR ALGERIE

{'IATA': 'AH', 'ICAO': 'DAH', 'Callsign': 'AIR ALGERIE'}

相关问题更多 >

编程相关推荐

热门问题

热门文章