提取股票代码困难pd.read_html文件不保存白色

2024-05-16 20:35:08 发布

您现在位置:Python中文网/ 问答频道 /正文

我想从几百家ETF的股票交易中得到股票行情etfdailynews.com网站. 我首先从https://etfdailynews.com/etfs/获取一个类别名称的列表,然后将该类别连接到该url,打开一个带有ETF名称和符号的页面。例如,https://etfdailynews.com/etfs/technology-equities-etfs/

在页面上,标题“基金符号/名称”下面有符号,然后是名称。计划是先读取表,然后假设符号和名称之间\n存在一些值,然后拆分以仅获得符号。例如,获取前10个:

sector_table = pd.read_html("https://etfdailynews.com/etfs/Large-Cap-Blend-ETFs")
etf_list = list(sector[0]["Fund Symbol/Name"].iloc[0:10])

问题是它返回的名称和符号之间没有任何空格。由于有些符号有时是3个字符,而另一些是4个字符长,我无法执行简单的拼接。上面返回的列表示例:

['SPYSPDR S&P 500', 'IVViShares Core S&P 500 ETF', 'VTIVanguard Total Stock Market ETF', 'VOOVanguard S&P 500 ETF', 'VIGVanguard Div Appreciation ETF - DNQ', 'IWBiShares Russell 1000 ETF', 'RSPGuggenheim S&P 500 Equal Weight ETF', 'USMViShares Edge MSCI Min Vol USA ETF', 'ITOTiShares Core S&P Total U.S. Stock Market ETF', 'SCHXSchwab U.S. Large-Cap ETF']

也许有一种方法可以让beauthulsoup随心所欲,但据我所知,我并不精通该模块pd.read_html文件我更擅长处理桌子,但我可能完全弄错了。在

编辑:我应该澄清一下,我计划打开ETF的URL来提取股票代码。我原计划将ETF符号连接到URL。另一种方法可以让我简单地提取ETF作品的URL。在


Tags: https名称comurl列表read符号页面
1条回答
网友
1楼 · 发布于 2024-05-16 20:35:08

该函数通过在
标记中添加分号并拆分文本来解析以下换行符单元格。在

TD Cell with Line Break

(HTML截至3/18/18https://etfdailynews.com/etfs/Large-Cap-Blend-ETFs/

html <td class="bold"><a class="show" href="/etf/SPY/">SPY<br/> <span class="thirteen unbold">SPDR S&amp;P 500</span></a></td>

用urllib或请求打开url后,将html表传递给下面的函数,它将返回一个DataFrame。在

^{1}$

链接到静态笔记本: https://github.com/emican86/49350586/blob/master/read_etf_html_tables.ipynb

链接到Azure笔记本(你可以克隆并用作实时演示): https://notebooks.azure.com/emican86/libraries/read-etf-html-tables

相关问题 更多 >