Python语言检测代码的优化与词法化

from textblob import TextBlob def detect_language(text): if len(text)>3: r=TextBlob(text) lang = r.detect_language() return lang dataset['language']=dataset.reviewText.apply(lambda x: detect_language(x))

overall reviewText 5 Not much to write about here, but it does exac... 5 The product does exactly as it should and is q... 5 The primary job of this device is to block the... 5 Nice windscreen protects my MXL mic and preven... 5 This pop filter is great. It looks and perform...

1条回答

网友

1楼 · 发布于 2024-04-28 07:25:02

TL；DR

from nltk import pos_tag, word_tokenize
from nltk.stem import WordNetLemmatizer

wnl = WordNetLemmatizer()

def penn2morphy(penntag):
    """ Converts Penn Treebank tags to WordNet. """
    morphy_tag = {'NN':'n', 'JJ':'a',
                  'VB':'v', 'RB':'r'}
    try:
        return morphy_tag[penntag[:2]]
    except:
        return 'n' 

def lemmatize_sent(text): 
    # Text input is string, returns lowercased strings.
    return [wnl.lemmatize(word.lower(), pos=penn2morphy(tag)) 
            for word, tag in pos_tag(word_tokenize(text))]

对字符串的数据帧列进行柠檬化。在

^{pr2}$

很长时间内

读https://www.kaggle.com/alvations/basic-nlp-with-nltk

TL；DR

很长时间内

相关问题更多 >

编程相关推荐

热门问题

热门文章