我目前有大约1000个网站链接到excel文件,我想下载。在文档的名称中没有模式,所以我刚刚搜集了所有的web链接,其中一些链接如下所示
VM300:1 https://www.powerwater.com.au__data/assets/excel_doc/0011/172775/Market_Information_System_Control_daily_trading_day_190130.xlsx
VM300:1 https://www.powerwater.com.au__data/assets/excel_doc/0004/172732/Market_Information_System_Control_daily_trading_day_190129.xlsx
VM300:1 https://www.powerwater.com.au__data/assets/excel_doc/0010/172675/Market_Information_System_Control_daily_trading_day_190128.xlsx
VM300:1 https://www.powerwater.com.au__data/assets/excel_doc/0009/172674/Market_Information_System_Control_daily_trading_day_190127.xlsx
VM300:1 https://www.powerwater.com.au__data/assets/excel_doc/0008/172673/Market_Information_System_Control_daily_trading_day_190126.xlsx
VM300:1 https://www.powerwater.com.au__data/assets/excel_doc/0007/172672/Market_Information_System_Control_daily_trading_day_190125.xlsx
VM300:1 https://www.powerwater.com.au__data/assets/excel_doc/0011/172595/Market_Information_System_Control_daily_trading_day_190124.xlsx
其中一个主要问题是,这些链接的开头都有VM300:1
,这不是链接的一部分。我怎样才能从每一个链接开始删除这个“VM300:1”,大约有1000个链接,所以手动执行是不可行的
一旦这个错误被修复,我的代码下载的文件仍然无法工作
这是我当前的代码:
import urllib2
urlfiles = ['https://www.powerwater.com.au__data/assets/excel_doc/0011/172775/Market_Information_System_Control_daily_trading_day_190130.xlsx',
'https://www.powerwater.com.au__data/assets/excel_doc/0004/172732/Market_Information_System_Control_daily_trading_day_190129.xlsx',
'https://www.powerwater.com.au__data/assets/excel_doc/0010/172675/Market_Information_System_Control_daily_trading_day_190128.xlsx']
urllib2.urlopen(urlfiles)
任何帮助都将不胜感激
您可以基于空间
^{pr 1}$like so:
Besides that, you need to iterate over each url in
urlfiles
拆分URL,以便能够像这样打开它:如果你的链接在一开始都有
'VM300:1 '
,那就需要删除,你可以忽略前8个字符,甚至不用担心regex至于下载所有这些文件,假设没有基于cookie、会话等的限制,并且使用Python3:
我听过python,没有提到
requests
相关问题 更多 >
编程相关推荐