我有一个列表c
,它有353000个元素。每个元素都是一个解析字符串。此列表的示例如下:
print c[25:50]
['aluminum co of america', 'aluminum co of america', 'aluminum co of america', 'aluminum company of america', 'aluminum company of america', 'aluminum co of america', 'aluminum company of america', 'aluminum company of america', 'asset acceptance capital corp.', 'asset acceptance capital corp.', 'asset acceptance capital corp.', 'asset acceptance capital corp.', 'asset acceptance capital corp.', 'asset acceptance capital corp.', 'asset acceptance capital corp.', 'asset acceptance capital corp.', 'ace cash express, inc.', 'ace cash express, inc.', 'airtran holdings, inc.', 'airtran holdings, inc.', 'airtran holdings, inc.', 'airtran holdings, inc.', 'airtran holdings, inc.', 'airtran holdings, inc.', 'airtran holdings, inc.']
我数了一下单子上单词的频率:
from collections import Counter
r=[]
for e in c:
r.extend(e.split())
count=Counter(r)
因此,列表中最常见的六个词是:
{'inc.': 18670, 'corporation': 9255, 'company': 2632, 'group,': 1190, '&': 1158, 'financial': 1025}
我想删除列表中的这些元素。例如,如果我有"aluminum corporation of america"
,那么输出应该是"aluminum of america"
。有什么帮助吗?你知道吗
可以使用正则表达式将要删除的单词替换为空字符串:
edit:虽然,您必须转义regex中的
.
和&
,因此它将变得比上面更复杂一些。。。你知道吗相关问题 更多 >
编程相关推荐