审查图挖掘项目的trip advisor数据集
rgmining-tripadvisor-dataset的Python项目详细描述
对于Review Graph Mining project, 此包提供由Dr. Wang提供的Trip Advisor dataset的加载程序。
安装
使用pip安装此软件包。
$ pip install --upgrade rgmining-tripadvisor-dataset
请注意,此安装将从 original web site。
这个包在内部使用bz2。如果你的Python没有 包(尝试import bz2),在安装之前重新生成python。
用法
此包提供模块tripadvisor,此模块提供 load函数。load函数接受一个graph对象 实现graph interface 在Review Graph Mining project中定义。
例如,下面的代码构造一个graph对象提供 FRAUDAR 算法,加载trip advisor数据集,运行算法,然后 输出异常审阅者的姓名。因为这个数据集由 巨大的评论,加载可能需要很长时间。
importfraudarimporttripadvisor# Construct a graph and load the dataset.graph=fraudar.ReviewGraph()tripadvisor.load(graph)# Run the analyzing algorithm.graph.update()# Print names of reviewers who are judged as anomalous.forringraph.reviewers:ifr.anomalous_score==1:printr.name# The number of reviewers the dataset has: -> 1169456.len(graph.reviewers)# The number of reviewers judged as anomalous: -> 147.len([rforringraph.reviewersifr.anomalous_score==1])
请注意,您可能需要安装fraudar算法以供审查 采矿项目由pip install rgmining-fraudar。
许可证
本软件在GNU通用公共许可版本下发布 3,请参见COPYING了解更多详细信息。
本软件导入的trip advisor数据集的作者, 发表研究论文时需要引用以下论文 使用此软件包:
- Hongning Wang,Yue Lu,和ChengXiang Zhai,Latent Aspect Rating Analysis without Aspect Keyword Supervision, 进行中。第17届ACM SIGKDD知识发现和 数据挖掘(KDD'2011),第618-6262011页;
- Hongning Wang,Yue Lu,和Chengxiang Zhai,Latent Aspect Rating Analysis on Review Text Data: A Rating Regression Approach, 进行中。第16届ACM SIGKDD知识发现和 数据挖掘(KDD'2010),第783-7922010页。