我正在刮下一页:https://www.transfermarkt.de/tsg-1899-hoffenheim/kader/verein/533/saison_id/2019/plus/1
表1列出了该团队。第二列是玩家。我需要的链接,你可以看到在屏幕截图左下角
当我正常查看数据帧时,我在这个单元格中只得到以下信息:“Oliver BaumannO.Baumannotorwart”但我正在寻找https://www.transfermarkt.de/oliver-baumann/profil/spieler/55089".
你们有什么想法吗
代码:
import pandas as pd
import requests
# Global variables
HEADS = {'User-Agent' : 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.110 Safari/537.36'}
dateiname = 'test.xlsx'
# Global variables
def get_response(url):
# URL-Anfrage durchfuehren
try:
response = requests.get(url, headers=HEADS)
except AttributeError:
print('AttributeError')
return response
def scraping_kader(response):
try:
dfs = pd.read_html(response.text)
#dfs = dfs.to_html(escape=False)
print(dfs[1])
print(dfs[1].iloc[0, :])
except ImportError:
print(' ImportError')
except ValueError:
print(' ValueError')
except AttributeError:
print(' AttributeError')
response = get_response('https://www.transfermarkt.de/tsg-1899-hoffenheim/kader/verein/533/saison_id/2019/plus/1')
scraping_kader(response)
据我所知
read_html
只从表中获取文本,它不关心链接、隐藏元素、属性等您需要像
BeautifulSoup
或lxml
这样的模块来处理完整的HTML并手动获取所需的信息本例仅获取链接,但与获取其他元素的方式相同
结果
这对我有帮助
我现在已经用pandas复制了表,并用BS4代码中的链接名称替换了列。工作
相关问题 更多 >
编程相关推荐