pandas.read_html
的默认行为似乎是将
字符转换为unicode\xa0
代码:
url = 'http://www.reuters.com/finance/stocks/company-officers/IBM'
ibm = pd.read_html(url, header=0)[0]
ibm.iloc[0,0]
'Virginia\xa0Rometty'
我知道我可以使用转换器将这些转换为以下空间:
^{pr2}$'Virginia Rometty'
这似乎是不必要的复杂的东西,一定是相当普遍。还有别的办法吗?也许是encoding
选项?在
我不认为编码选项能解决这个问题,但是你可以把它们去掉。使用
str.replace
,可以删除任何非ASCII并用空格替换它。在或者,只有不间断的空间-
^{pr2}$相关问题 更多 >
编程相关推荐