使用python请求伪装成浏览器并下载fi

import requests url = "http://www.nasdaq.com/screening/companies-by-industry.aspx?exchange=NASDAQ&render=download" # Fake Firefox headers headers = {"Host" : "www.nasdaq.com", \ "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64; rv:42.0) Gecko/20100101 Firefox/42.0", \ "Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8", \ "Accept-Language": "en-US,en;q=0.5", \ "Accept-Encoding": "gzip, deflate", \ "DNT": "1", \ "Cookie": "clientPrefs=||||lightg; userSymbolList=EOD+&DIT; userCookiePref=true; selectedsymbolindustry=EOD,; selectedsymboltype=EOD,EVERGREEN GLOBAL DIVIDEND OPPORTUNITY FUND COMMON SHARES OF BENEFICIAL INTEREST,NYSE; c_enabled$=true", \ "Connection": "keep-alive", } # Get the list response = requests.get(url, headers, stream=True) print(response.status_code) # Write server response to file with open("nasdaq.csv", 'wb') as f: for chunk in response.iter_content(chunk_size=1024): if chunk: # filter out keep-alive new chunks f.write(chunk)

3条回答

网友

1楼 · 编辑于 2024-06-12 04:07:01

解决这个问题的另一种方法是：

import urllib

downloadFile = urllib.URLopener()
downloadFile.retrieve("http://www.nasdaq.com/screening/companies-by-industry.aspx?exchange=NASDAQ&render=download", "companylist.csv")

这段代码使用URL库创建URL请求对象（downloadFile），然后从NASDAQ链接检索数据并将其保存为companylist.csv。在

根据Python文档，如果要发送自定义用户代理（例如Firefox用户代理），可以将URLopener子类化，并将version属性设置为要使用的用户代理。在

注意根据Python文档，从pythonv3.3起，urllib.URLopener()是不推荐使用的。因此，它最终可能会从Python标准中删除。但是，从pythonv3.6（Dev）起，urllib.URLopener()仍然作为遗留接口受到支持。

网友

2楼 · 编辑于 2024-06-12 04:07:01

你其实不需要那些标题。你甚至不需要保存到一个文件。在

import requests
import csv

url = "http://www.nasdaq.com/screening/companies-by-industry.aspx?exchange=NASDAQ&render=download"
response = requests.get(url)
data = csv.DictReader(response.content.splitlines())
for row in data:
    print row

样本输出：

^{pr2}$

如果愿意，可以使用csv.reader代替DictReader。在

网友

3楼 · 编辑于 2024-06-12 04:07:01

您不需要提供任何标题：

import requests

url = "http://www.nasdaq.com/screening/companies-by-industry.aspx?exchange=NASDAQ&render=download"

response = requests.get(url, stream=True)
print(response.status_code)

# Write server response to file
with open("nasdaq.csv", 'wb') as f:
    for chunk in response.iter_content(chunk_size=1024):
        if chunk: # filter out keep-alive new chunks
            f.write(chunk)

你也可以只写内容：

^{pr2}$

或使用urlib：

urllib.urlretrieve("http://www.nasdaq.com/screening/companies-by-industry.aspx?exchange=NASDAQ&render=download","nasdaq.csv")

所有方法都提供3137行csv文件：

"Symbol","Name","LastSale","MarketCap","ADR TSO","IPOyear","Sector","Industry","Summary Quote",
"TFSC","1347 Capital Corp.","9.79","58230920","n/a","2014","Finance","Business Services","http://www.nasdaq.com/symbol/tfsc",
"TFSCR","1347 Capital Corp.","0.15","0","n/a","2014","Finance","Business Services","http://www.nasdaq.com/symbol/tfscr",
"TFSCU","1347 Capital Corp.","10","41800000","n/a","2014","Finance","Business Services","http://www.nasdaq.com/symbol/tfscu",
"TFSCW","1347 Capital Corp.","0.178","0","n/a","2014","Finance","Business Services","http://www.nasdaq.com/symbol/tfscw",
"PIH","1347 Property Insurance Holdings, Inc.","7.51","46441171.61","n/a","2014","Finance","Property-Casualty Insurers","http://www.nasdaq.com/symbol/pih",
"FLWS","1-800 FLOWERS.COM, Inc.","7.87","510463090.04","n/a","1999","Consumer Services","Other Specialty Stores","http://www.nasdaq.com/symbol/flws",
"FCTY","1st Century Bancshares, Inc","7.81","80612492.62","n/a","n/a","Finance","Major Banks","http://www.nasdaq.com/symbol/fcty",
"FCCY","1st Constitution Bancorp (NJ)","12.39","93508122.96","n/a","n/a","Finance","Savings Institutions","http://www.nasdaq.com/symbol/fccy",
"SRCE","1st Source Corporation","30.54","796548769.38","n/a","n/a","Finance","Major Banks","http://www.nasdaq.com/symbol/srce",
"VNET","21Vianet Group, Inc.","20.26","1035270865.78","51099253","2011","Technology","Computer Software: Programming, Data Processing","http://www.nasdaq.com/symbol/vnet",
   ...................................

如果由于某种原因它对您不起作用，那么您可能需要升级您的请求版本。在

相关问题更多 >

编程相关推荐

热门问题

热门文章