从web pag提取数据的脚本

网友

1楼 · 编辑于 2024-05-14 22:28:32

卷曲是一个好的开始。更好的命令行是：

curl -A "Mozilla/5.0" -L -k -b /tmp/c -c /tmp/c -s http://url.tld

因为它使用cookies、用户代理、SSL证书和其他东西。

见man curl

网友

2楼 · 编辑于 2024-05-14 22:28:32

保存/处理单个Web资源：上述方法适用于单个文件/Web资源。此外，还可以通过管道传输正则表达式，并根据预设模式剪切/跳过数据。保存所有标签源URL。
递归地保存/处理整个目录或网站：使用Python或Perl脚本，该脚本可以迭代地下拉所有链接以及属于页面或网站dns名称的资源。在Python I中将使用http lib并递归地解析标记（确保有深度限制，或者对于大型网站，您可能最终会保存大量数据！）。一个简单而安全的方法是Beautiful Soup-这是一个Python库，它可以丢弃web数据、导航、搜索远程web资源的解析树。它还可以修改解析的本地内容等。

网友

3楼 · 编辑于 2024-05-14 22:28:32

我将使用requests和BeautifulSoup的组合。

import requests
import BeautifulSoup

session = requests.session()

req = session.get('http://stackoverflow.com/questions/10807081/script-to-extract-data-from-wbpage')

doc = BeautifulSoup.BeautifulSoup(req.content)

print doc.findAll('a', { "class" : "gp-share" })

相关问题更多 >

编程相关推荐

热门问题

热门文章

从web pag提取数据的脚本

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >