我试图从FTP站点解析/获取一些数据。具体来说:ftp://ftp.ncbi.nlm.nih.gov/genomes/all/GCA_000513335.1_PCAMFM013_20131106
最终我希望能够有一个Python脚本,从这个站点下载所有文件。但首先,我要学习如何使用beauthoulsoup4和urllib2获取所有下载链接。(因为请求不适用于HTML站点?)在
我检查了这些元素并看到它们存储在一个表中,但是当我调用findAll时,我得到了一个findAll的属性错误。在
这就是我的代码现在的样子(还在开始。我想搞乱表格数据):
import urllib2
from bs4 import BeautifulSoup
url ="ftp://ftp.ncbi.nlm.nih.gov/genomes/all/GCA_000513335.1_PCAMFM013_20131106"
html = urllib2.urlopen(url).read()
soup = BeautifulSoup(html)
table = soup.find('table')
rows = table.findAll('tr') <== error here
print rows
有人知道我做错了什么吗?我是不是搞错了?任何帮助都将不胜感激。在
HTML表不是由FTP服务器发送的。只有浏览器将根据FTP服务器返回的目录列表生成HTML。这意味着您不能使用BeautifulSoup来解析它。而是查看ftplib与FTP服务器交互。在
相关问题 更多 >
编程相关推荐