使用langdetect删除非英语文本

2024-05-19 01:37:40 发布

您现在位置:Python中文网/ 问答频道 /正文

我正在尝试使用langdetect删除文本中所有非英语的语言

def det(x):
    try:
        language = detect(x)
    except:
        language = 'Other'
    return language

df['langue'] = df['Tweet'].apply(det)
filtered_for_english = df.loc[df['langue'] == 'en']

上面的代码是我尝试过的。它检测每条推文中使用的语言,但不会从我的数据框中删除非英语推文

生成的数据帧:

0        es
1        es
2        es
3        en
4        en
         ..
14272    en
14273    en
14274    en
14275    it
14276    en
Name: langue, Length: 14277, dtype: object

如何修复此代码


Tags: 数据代码文本语言dfesdeflanguage

热门问题