如何从csv文件的文本数据中删除非英语单词(python)

2024-06-08 21:23:13 发布

您现在位置:Python中文网/ 问答频道 /正文

我试图从csv文件的文本数据中删除非英语单词。我使用Python来执行此操作。在

我使用以下代码读取csv文件:

blogdata = pd.read_csv("C:/Users/hyoungm/Downloads/blogdatatest.csv", encoding = 'utf-16', sep = "\t")
print(blogdata)

此时,还剩10179行。在

然后,我使用以下代码从数据中删除非英语单词,特别是在“posting”列中:

^{pr2}$

然后,我只剩下3693排了。我想上面的代码删除了所有非英语单词的行。在

我正在为如何删除那些非英语单词和保存其他部分而努力,这样我可以保留尽可能多的行。在

我正在以下网站共享数据集:https://github.com/GemmyMoon/nonenglish

有人能帮我吗?在

提前谢谢你!在


Tags: 文件csv数据代码文本readdownloadsusers