使用自然语言处理从员工调查中分割好的和坏的评论

2024-05-29 07:42:43 发布

您现在位置:Python中文网/ 问答频道 /正文

所以这里有点遥不可及,我为缺乏信息道歉。然而,我现在甚至很难知道该去哪里找。你知道吗

因此,我试图从一个随机的公司对员工进行的虚构调查中,把好的和坏的评价分开。我所拥有的只是一个数据框,由员工的评论和他们的经理ID代码组成。这样做的目的是想看看有多少好的和/或不好的评论是通过他们的ID与经理联系在一起的

import pandas as pd 
trial_text=pd.read_csv("trial.csv")
trial_text.head()

   ManagerCode              Comment
0        AB123  Great place to work
1        AB123  Need more training
2        AB123  Hate working here
3        AB124  Always late home
4        AB124  Manager never listens

对于包含更多信息的数据集,我经常使用NLTK,因此基于NLTK的任何内容都不会是问题。就像我说的,“谷歌”有太多的信息,我不知道从哪里开始(或那是有用的)!如果有人可能会有一个建议,太好了!你知道吗

谢谢


Tags: csv数据text信息id评论员工公司
3条回答

如果你有较小的数据集,你可以做情绪分析使用逻辑回归,因为这是分类问题。你可以在这里找到类似的例子:Sentiment Analysis using Logistic Regression

你需要情绪分析。我不认为你会得到一个现成的模型,虽然惊人的结果,因为你的回答是相当短,相当领域具体。如果您仍然想尝试,下面是一个如何将vader模型与nltk一起使用的示例:

from nltk.sentiment.vader import SentimentIntensityAnalyzer
sid = SentimentIntensityAnalyzer()
sid.polarity_scores('Great place to work')
>>> {'neg': 0.0, 'neu': 0.423, 'pos': 0.577, 'compound': 0.6249}
sid.polarity_scores('Manager never listens')
>>> {'neg': 0.0, 'neu': 1.0, 'pos': 0.0, 'compound': 0.0}

如您所见,您的里程数可能会有所不同。你知道吗

如果你有很多回答(数千),一个更可行的策略是手动标记一个样本,例如几十到几百个,并训练你自己的情感分类器。下面是一些关于如何使用nltksklearn执行此操作的好教程

textblob怎么样?举个例子:

from textblob import TextBlob
TextBlob('this sounds pretty good!').sentiment

输出:

Sentiment(polarity=0.5625, subjectivity=0.8)

相关问题 更多 >

    热门问题