如何访问excel文件中的url，并使用beautifulsoup从这些链接中获取存储的信息？

import csv import urllib2 from bs4 import BeautifulSoup url = "http://www.thedrum.com/news/2015/07/29/mankind-must-get-ahead-technical-development-states-phds-mark-holden-following" soup = BeautifulSoup(urllib2.urlopen(url)) with open('ctp_output.txt', 'w') as f: for tag in soup.find_all('p'): f.write(tag.text.encode('utf-8') + '\n')

2条回答

网友

1楼 · 编辑于 2024-05-14 10:16:44

下一步是打开csv文件，然后遍历每一行，提取每个链接的信息。你可以这样做：

import csv

with open('test.csv', 'rb') as f:
    reader = csv.reader(f)
    for line in reader:
        url = line[0] # assuming your url is your first column
        .... # scraping code here

网友

2楼 · 编辑于 2024-05-14 10:16:44

可以使用pandas.read_csv()在pandas数据帧中导入csv。然后迭代数据帧的行，如下所示

for url in data_frame_name.iterrows():
....use the url to get the information like you did in the question.

编程相关推荐

java游戏！框架伪造应用程序它实际上做什么？
java如何在JavaFx中显示表视图中的即时更改？
对象类的equals（）方法的java重载
xpages介绍如何部署java。IBM Notes中的策略更改
java如何访问侦听器中的另一个视图？
java getDefaultDisplay（）的替代方法是什么
java opencv匹配模板
java Android Firebase写入数据时的常量超时
在Java中，如何将包含大量空格的数字字符串转换为一系列Int变量。
带有GUI的swing Java模拟无法运行模拟

相关问题更多 >

编程相关推荐

热门问题

热门文章

如何访问excel文件中的url，并使用beautifulsoup从这些链接中获取存储的信息？

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >