对pandas read_htm中不间断空格的解码 - 问答 - Python中文网

对pandas read_htm中不间断空格的解码

2024-04-25 22:29:32 发布

您现在位置：Python中文网/ 问答频道 /正文

男 | 程序猿一只，喜欢编程写python代码。

pandas.read_html的默认行为似乎是将 字符转换为unicode\xa0代码：

url = 'http://www.reuters.com/finance/stocks/company-officers/IBM'
ibm = pd.read_html(url, header=0)[0]
ibm.iloc[0,0]

'Virginia\xa0Rometty'

我知道我可以使用转换器将这些转换为以下空间：

^{pr2}$

'Virginia Rometty'

这似乎是不必要的复杂的东西，一定是相当普遍。还有别的办法吗？也许是encoding选项？在

Tags：代码 com http url pandas read html www

1条回答

网友

1楼 · 发布于 2024-04-25 22:29:32

我不认为编码选项能解决这个问题，但是你可以把它们去掉。使用str.replace，可以删除任何非ASCII并用空格替换它。在

ibm['Name'] = ibm['Name'].str.replace('[^\x00-\x8F]', ' ')

或者，只有不间断的空间-

^{pr2}$

相关问题更多 >

编程相关推荐

热门问题

热门文章