Python pandas datareader不再适用于yahoo finance changed u

3条回答

网友

1楼 · 编辑于 2024-05-29 03:52:30

所以他们改变了他们的url，现在使用cookies保护（可能还有javascript），所以我用dryscrape解决了我自己的问题，它模拟了一个浏览器这只是一个参考，因为这肯定会违反他们的条款和条件。。。所以你自己冒险使用？我正在寻找一个替代的EOD价格来源的Quandl。

我在cookie浏览CookieJar时找不到任何地方，所以我最终使用dryscrape来“伪造”用户下载

import dryscrape
from bs4 import BeautifulSoup
import time
import datetime
import re

#we visit the main page to initialise sessions and cookies
session = dryscrape.Session()
session.set_attribute('auto_load_images', False)
session.set_header('User-agent', 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.95     Safari/537.36')    

#call this once as it is slow(er) and then you can do multiple download, though there seems to be a limit after which you have to reinitialise...
session.visit("https://finance.yahoo.com/quote/AAPL/history?p=AAPL")
response = session.body()


#get the dowload link
soup = BeautifulSoup(response, 'lxml')
for taga in soup.findAll('a'):
    if taga.has_attr('download'):
        url_download = taga['href']
print(url_download)

#now replace the default end date end start date that yahoo provides
s = "2017-02-18"
period1 = '%.0f' % time.mktime(datetime.datetime.strptime(s, "%Y-%m-%d").timetuple())
e = "2017-05-18"
period2 = '%.0f' % time.mktime(datetime.datetime.strptime(e, "%Y-%m-%d").timetuple())

#now we replace the period download by our dates, please feel free to improve, I suck at regex
m = re.search('period1=(.+?)&', url_download)
if m:
    to_replace = m.group(m.lastindex)
    url_download = url_download.replace(to_replace, period1)        
m = re.search('period2=(.+?)&', url_download)
if m:
    to_replace = m.group(m.lastindex)
    url_download = url_download.replace(to_replace, period2)

#and now viti and get body and you have your csv
session.visit(url_download)
csv_data = session.body()

#and finally if you want to get a dataframe from it
import sys
if sys.version_info[0] < 3: 
    from StringIO import StringIO
else:
    from io import StringIO

import pandas as pd
df = pd.read_csv(StringIO(csv_data), index_col=[0], parse_dates=True)
df

网友

2楼 · 编辑于 2024-05-29 03:52:30

我从雅虎换成了谷歌金融，对我很管用，所以

data.DataReader(ticker, 'yahoo', start_date, end_date)

到

data.DataReader(ticker, 'google', start_date, end_date)

改编了我的“老”雅虎！符号来源：

tickers = ['AAPL','MSFT','GE','IBM','AA','DAL','UAL', 'PEP', 'KO']

到

tickers = ['NASDAQ:AAPL','NASDAQ:MSFT','NYSE:GE','NYSE:IBM','NYSE:AA','NYSE:DAL','NYSE:UAL', 'NYSE:PEP', 'NYSE:KO']

网友

3楼 · 编辑于 2024-05-29 03:52:30

我发现https://pypi.python.org/pypi/fix-yahoo-finance中“修复雅虎财务”的解决方法很有用，例如：

from pandas_datareader import data as pdr
import fix_yahoo_finance

data = pdr.get_data_yahoo('APPL', start='2017-04-23', end='2017-05-24')

注意，最后两个数据列的顺序是“Adj Close”和“Volume”，即不是以前的格式。要重新索引：

cols = ['Date', 'Open', 'High', 'Low', 'Close', 'Volume', 'Adj Close']
data.reindex(columns=cols)

相关问题更多 >

编程相关推荐

热门问题

热门文章

Python pandas datareader不再适用于yahoo finance changed u

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >