我有一个数据框df
,其中包含我需要整齐格式化的公司名称。名称已在标题栏中:
Company Name
0 Visa Inc
1 Msci Inc
2 Coca Cola Inc
3 Pnc Bank
4 Aig Corp
5 Td Ameritrade
6 Uber Inc
7 Costco Inc
8 New York Times
由于许多公司使用首字母缩略词或缩写(行1
、3
、4
、5
),我只希望这些公司名称中的第一个字符串为大写,如下所示:
Company Name
0 Visa Inc
1 MSCI Inc
2 Coca Cola Inc
3 PNC Bank
4 AIG Corp
5 TD Ameritrade
6 Uber Inc
7 Costco Inc
8 New York Times
我知道我无法获得100%的准确替换,但我相信,只有在以下情况下,我才能通过上套管接近第一根管柱:
我如何通过类似:df['Company Name'] = df['Company Name'].replace()
的方法实现这一点
因此,您可以实际使用enchant模块来确定它是否是字典中的单词。考虑到你仍然会有一些不良结果,例如优步
这是我写的代码,很抱歉变量的名字太糟糕了
这方面的产出是:
你可以先把第一个单词和其他部分分开。然后根据您的逻辑过滤第一个单词:
输出(请注意,
New York
中的NEW
也会发生更改):这里有一个有效的解决方案,它使用英语单词列表。只是它对{}和{}不准确,但就像你说的,这很难达到100%的准确度
注意:我也用
nltk
软件包尝试了这一点,但显然,nltk.corpus.words
模块到目前为止还没有完整的英文单词相关问题 更多 >
编程相关推荐