如何将原始CSV列、Bigram计数和频率导出到新CSV？

import csv import string import re from nltk.util import everygrams import pandas as pd from collections import Counter from itertools import combinations df = pd.read_csv('modified.csv', 'r', encoding="utf8", names=['comment']) top_N = 1000 stopwords = nltk.corpus.stopwords.words('english') RE_stopwords = r'\b(?:{})\b'.format('|'.join(stopwords)) txt = df.comment.str.lower().str.replace(r'\|', ' ').str.cat(sep=' ') words = nltk.tokenize.word_tokenize(txt) words = [w for w in words if not w in RE_stopwords] bigrm = list(nltk.bigrams(words)) word_dist = nltk.FreqDist([' '.join(x) for x in bigrm]) rslt = pd.DataFrame(word_dist.most_common(top_N), columns=['Word', 'Frequency']) print(rslt) rslt.to_csv('bigram3.csv')

1条回答

网友

1楼 · 发布于 2024-04-25 19:34:23

最后添加的行，在rslt数据帧中创建一个新列，并将数据从原始数据帧复制到这个数据帧。你知道吗

import csv
import string
import re
from nltk.util import everygrams
import pandas as pd


from collections import Counter

from itertools import combinations

df = pd.read_csv('modified.csv', 'r', encoding="utf8",
                 names=['comment'])
top_N = 1000
stopwords = nltk.corpus.stopwords.words('english')

RE_stopwords = r'\b(?:{})\b'.format('|'.join(stopwords))

txt = df.comment.str.lower().str.replace(r'\|', ' ').str.cat(sep=' ')

words = nltk.tokenize.word_tokenize(txt)
words = [w for w in words if not w in RE_stopwords]

bigrm = list(nltk.bigrams(words))



word_dist = nltk.FreqDist([' '.join(x) for x in bigrm])
rslt = pd.DataFrame(word_dist.most_common(top_N),
                columns=['Word', 'Frequency'])
rslt['Column_Type'] = df['comment type']
rslt['Column_Date'] = df['comment date']
print(rslt)
rslt.to_csv('bigram3.csv')

相关问题更多 >

编程相关推荐

热门问题

热门文章