使用正则表达式标记化的NLP词干分析和柠檬化

from nltk.corpus import stopwords def performStemAndLemma(textcontent): # Write your code here #Step 1 tokenizedword = nltk.tokenize.regexp_tokenize(textcontent, pattern = '\w*', gaps = False) #Step 2 tokenizedwords = [x.lower() for x in tokenizedword if x != ''] #Step 3 unique_tokenizedwords = set(tokenizedwords) stop_words = set(stopwords.words('english')) filteredwords = [] for x in unique_tokenizedwords: if x not in stop_words: filteredwords.append(x) #Steps 4, 5 , 6 ps = nltk.stem.PorterStemmer() ls = nltk.stem.LancasterStemmer() wnl = nltk.stem.WordNetLemmatizer() porterstemmedwords =[] lancasterstemmedwords = [] lemmatizedwords = [] for x in filteredwords: porterstemmedwords.append(ps.stem(x)) lancasterstemmedwords.append(ls.stem(x)) lemmatizedwords.append(wnl.lemmatize(x)) return porterstemmedwords, lancasterstemmedwords, lemmatizedwords

3条回答

网友

1楼 · 编辑于 2024-05-16 03:32:35

def performStemAndLemma(textcontent):
    from nltk.corpus import stopwords

在如上定义函数之后，只需导入stopwords。代码的其余部分保持不变

网友

2楼 · 编辑于 2024-05-16 03:32:35

实际上，预期的输出是把大写和小写的单词看作分开的令牌。因此，在将所有单词转换为小写之前，应该先获取所有唯一的单词。我希望下面的代码可以工作


from nltk.corpus import stopwords
def performStemAndLemma(textcontent):
    # Write your code here
    #Step 1
    tokenizedword = nltk.regexp_tokenize(textcontent, pattern = r'\w*', gaps = False)
    #Step 2
    tokenizedwords = [y for y in tokenizedword if y != '']
    unique_tokenizedwords = set(tokenizedwords)
    tokenizedwords = [x.lower() for x in unique_tokenizedwords if x != '']
    #Step 3
    #unique_tokenizedwords = set(tokenizedwords)
    stop_words = set(stopwords.words('english')) 
    filteredwords = []
    for x in tokenizedwords:
        if x not in stop_words:
            filteredwords.append(x)
    #Steps 4, 5 , 6
    ps = nltk.stem.PorterStemmer()
    ls = nltk.stem.LancasterStemmer()
    wnl = nltk.stem.WordNetLemmatizer()
    porterstemmedwords =[]
    lancasterstemmedwords = []
    lemmatizedwords = []
    for x in filteredwords:
        porterstemmedwords.append(ps.stem(x))
        lancasterstemmedwords.append(ls.stem(x))
        lemmatizedwords.append(wnl.lemmatize(x))
    return porterstemmedwords, lancasterstemmedwords, lemmatizedwords

网友

3楼 · 编辑于 2024-05-16 03:32:35

下面的方法为我清除了所有的测试用例

import re
from nltk.corpus import stopwords 
def performStemAndLemma(textcontent):
    # Write your code here
    lancaster = nltk.LancasterStemmer()
    porter = nltk.PorterStemmer()
    wnl = nltk.WordNetLemmatizer()
    tokens2_3 = nltk.regexp_tokenize(textcontent,  r'\w+')
    stop_words = set(stopwords.words('english'))
    tokenisedwords=[words for words in set(tokens2_3) if not words.lower() in  stop_words ]
    #print(tokenizedwords)
    return [porter.stem(word.lower()) for word in set(tokenisedwords)],[lancaster.stem(word.lower()) for word in set(tokenisedwords)],[wnl.lemmatize(word.lower()) for word in set(tokenisedwords)]

相关问题更多 >

编程相关推荐

热门问题

热门文章