web抓取：使用bs4抓取数据时获取“\n”标记

import requests from bs4 import BeautifulSoup import pandas as pd page1 = requests.get('https://en.wikipedia.org/wiki/Peths_in_Pune').text soup1 = BeautifulSoup(page1, 'lxml') table = soup1.find('table',{'class':'wikitable sortable'}) #table table1="" for tr in table.find_all('tr'): row1="" for tds in tr.find_all('td'): row1=row1+","+tds.text table1=table1+row1[1:] row1

2条回答

网友

1楼 · 编辑于 2024-05-15 07:47:35

这只是一个更简单的版本，可以通过pandas read_html方法在df中获取所需的表

import pandas as pd

df = pd.read_html("https://en.wikipedia.org/wiki/Peths_in_Pune")[1]

df.to_csv("data.csv", index=False)

网友

2楼 · 编辑于 2024-05-15 07:47:35

对于单次放炮，您可以使用pandasread_html函数执行此操作：

import pandas as pd

df = pd.read_html("https://en.wikipedia.org/wiki/Peths_in_Pune")[1]

print(df)

df.to_csv("data.csv", index=False)

输出：view-online

对于第一列：

target = df['Peth Naam'].to_list()

print(target)

输出：

['Kasba Peth', 'Guruwar Peth', 'Somwar Peth', 'Mangalwar Peth', 'Shukrawar Peth', 'Raviwar Peth', 'Shaniwar Peth', 'Bhavani Peth', 'Ghorpade Peth', 'Budhwar Peth', 'Ganesh Peth', 'Sadashiv Peth', 'Narayan Peth', 'Rasta Peth', 'Nana Peth', 'Ganj Peth(later renamed to Mahatma Phule Peth)', 'Navi Peth']

现在回到真正的问题：

使用item.get_text("\n", strip=True)

相关问题更多 >

编程相关推荐

热门问题

热门文章