从推特上推断信息。可用于以人为中心的计算任务,如情感分析、位置预测、作者分析等!
infertweet的Python项目详细描述
从推特上推断信息。对以人为中心的计算有用 任务,如情绪分析、位置预测、作者 剖析和更多!
情绪分析
我们提供三类(积极、消极、客观或中立) 微博情感分析。
实验仍在进行中,但目前系统使用的是分层的 首先确定tweet是客观的还是主观的分类器 (主观性分类器),然后如果主观性决定了tweet是否 正或负(极性分类器)。
我们使用了大约8750个标记的训练实例 Sentiment Analysis in Twitter的任务 2013年9月。然后我们“冻结”主观性分类器, 目前还没有能够纳入额外的高质量 有标签或无标签的客观或中立的推文或文本。但是,我们 通过自我训练继续训练极性分类器 大约100万个可能包含的未标记鸣叫 情绪。其他的tweets是从twitter中捕获的,如果它们有 tweet文本中出现的匹配表情符号。
semeval-2013年
我们系统的早期版本是在2013年的semeval中输入的 竞争。我们的简单系统(带unigrams+bigrams的naive bayes) 在48份投稿中得了25分,虽然不是最先进的 还不算太糟。
评估指标是阳性和 消极的阶级。我们的系统实现了0.5437的f度量,而 顶层系统实现了0.6902。
semeval-2013系统结果
Confusion table: gs \ pred| positive| negative| neutral --------------------------------------- positive| 841| 233| 498 negative| 74| 324| 203 neutral| 276| 196| 1168 Scores: class prec recall fscore positive (841/1191) 0.7061 (841/1572) 0.5350 0.6088 negative (324/753) 0.4303 (324/601) 0.5391 0.4786 neutral (1168/1869) 0.6249 (1168/1640) 0.7122 0.6657 -------------------------------------------------------------------- average(pos and neg) 0.5437
同时,我们还有很多实验性的想法可以改进 我们的分类器的性能,所以是时候进行实验了!
rpc服务器
情感分析分类器可以从文件中加载并服务 使用rpc服务器。这使得分类器可能被 许多应用程序,以及能够保持加载,即使另一个 依赖于分类器的应用程序需要重新启动或更新。
网络用户界面
我们添加了一个非常简单的web界面,允许用户查询 系统。许多即将推出的功能都是为web界面设计的。
已知错误:如果通过pip或^{tt4}安装包$ 然后web接口文件在web/static和^{tt6}下$ 不会随安装一起复制。因此,要么复制这些 手动或从源目录运行的文件。
restful json api
获取情感/分类
参数
- 文本:表示要分类的文档的字符串。
响应对象字段
- 文本:原始输入文本的字符串。
- label:情感分类标签的字符串。
- 信心:对标签的信心浮动。
请求示例
得到 http://.../api/sentiment/classify.json?text=Today+is+March+30%2C+2013.
{ "text": "Today is March 30, 2013.", "confidence": 0.9876479882432573, "label": "neutral" }