提取股票代码困难pd.read_html文件不保存白色 - 问答 - Python中文网

提取股票代码困难pd.read_html文件不保存白色

2024-05-16 20:35:08 发布

您现在位置：Python中文网/ 问答频道 /正文

男 | 程序猿一只，喜欢编程写python代码。

我想从几百家ETF的股票交易中得到股票行情etfdailynews.com网站. 我首先从https://etfdailynews.com/etfs/获取一个类别名称的列表，然后将该类别连接到该url，打开一个带有ETF名称和符号的页面。例如，https://etfdailynews.com/etfs/technology-equities-etfs/

在页面上，标题“基金符号/名称”下面有符号，然后是名称。计划是先读取表，然后假设符号和名称之间\n存在一些值，然后拆分以仅获得符号。例如，获取前10个：

sector_table = pd.read_html("https://etfdailynews.com/etfs/Large-Cap-Blend-ETFs")
etf_list = list(sector[0]["Fund Symbol/Name"].iloc[0:10])

问题是它返回的名称和符号之间没有任何空格。由于有些符号有时是3个字符，而另一些是4个字符长，我无法执行简单的拼接。上面返回的列表示例：

['SPYSPDR S&P 500', 'IVViShares Core S&P 500 ETF', 'VTIVanguard Total Stock Market ETF', 'VOOVanguard S&P 500 ETF', 'VIGVanguard Div Appreciation ETF - DNQ', 'IWBiShares Russell 1000 ETF', 'RSPGuggenheim S&P 500 Equal Weight ETF', 'USMViShares Edge MSCI Min Vol USA ETF', 'ITOTiShares Core S&P Total U.S. Stock Market ETF', 'SCHXSchwab U.S. Large-Cap ETF']

也许有一种方法可以让beauthulsoup随心所欲，但据我所知，我并不精通该模块pd.read_html文件我更擅长处理桌子，但我可能完全弄错了。在

编辑：我应该澄清一下，我计划打开ETF的URL来提取股票代码。我原计划将ETF符号连接到URL。另一种方法可以让我简单地提取ETF作品的URL。在

Tags： https 名称 com url 列表 read 符号页面

1条回答

网友

1楼 · 发布于 2024-05-16 20:35:08

该函数通过在
标记中添加分号并拆分文本来解析以下换行符单元格。在

（HTML截至3/18/18https://etfdailynews.com/etfs/Large-Cap-Blend-ETFs/）

html <td class="bold"><a class="show" href="/etf/SPY/">SPY<br/> <span class="thirteen unbold">SPDR S&P 500</span></a></td>

用urllib或请求打开url后，将html表传递给下面的函数，它将返回一个DataFrame。在

^{1}$

链接到静态笔记本： https://github.com/emican86/49350586/blob/master/read_etf_html_tables.ipynb

链接到Azure笔记本（你可以克隆并用作实时演示）： https://notebooks.azure.com/emican86/libraries/read-etf-html-tables

相关问题更多 >

编程相关推荐

热门问题

热门文章