擅长:python、mysql、java
<p>你有你需要的东西。缺少的一点是小写转换,只需使用<code>word.lower()</code>即可完成。在</p>
<p>另一件你缺少的事就是分词。您应该为这个任务使用<code>.split()</code>,默认情况下,它会拆分每个空格字符,即空格、制表符等</p>
<p>您将遇到的一个问题是区分文本中的逗号和列分隔逗号。也许不要使用csv阅读器,只需阅读每一行并删除时间,然后将其拆分成单词。在</p>
<pre><code>import re
with open('/Users/file.csv', 'rb') as file:
for line in file:
line = re.sub(" , [0-2][0-9]:[0-5][0-9]", "", line)
line = re.sub("[,|!|.|?|\"]", "", line)
words = [w.lower() for w in line.split()]
for word in words:
...
</code></pre>
<p>如果要删除其他字符,请将它们包含在第二个正则表达式中。如果性能对您很重要,您应该在<code>for</code>循环之前编译两个正则表达式一次。在</p>