使用Python、Urllib从FTP si解析/抓取表

2024-06-01 07:57:33 发布

您现在位置:Python中文网/ 问答频道 /正文

我试图从FTP站点解析/获取一些数据。具体来说:ftp://ftp.ncbi.nlm.nih.gov/genomes/all/GCA_000513335.1_PCAMFM013_20131106

最终我希望能够有一个Python脚本,从这个站点下载所有文件。但首先,我要学习如何使用beauthoulsoup4和urllib2获取所有下载链接。(因为请求不适用于HTML站点?)在

我检查了这些元素并看到它们存储在一个表中,但是当我调用findAll时,我得到了一个findAll的属性错误。在

这就是我的代码现在的样子(还在开始。我想搞乱表格数据):

import urllib2
from bs4 import BeautifulSoup

url ="ftp://ftp.ncbi.nlm.nih.gov/genomes/all/GCA_000513335.1_PCAMFM013_20131106"
html = urllib2.urlopen(url).read()
soup = BeautifulSoup(html)

table = soup.find('table')
rows = table.findAll('tr') <== error here

print rows

有人知道我做错了什么吗?我是不是搞错了?任何帮助都将不胜感激。在


Tags: 数据import站点tableftpncbinlmall
1条回答
网友
1楼 · 发布于 2024-06-01 07:57:33

HTML表不是由FTP服务器发送的。只有浏览器将根据FTP服务器返回的目录列表生成HTML。这意味着您不能使用BeautifulSoup来解析它。而是查看ftplib与FTP服务器交互。在

相关问题 更多 >