维基百科用户数据的数据分析。
wmf_user_metrics的Python项目详细描述
导言
此包实现日志检索、度量生成和数据 编辑参与实验(E3)团队使用的分析工具 维基媒体基金会此处的模块将用于执行 处理实验所需的etl和分析操作 E3项目产生的数据
安装
wmf_user_metrics与distutils打包在一起:
$ sudo pip install wmf_user_metrics
安装后,您将需要修改配置文件。这个 可以在下面的文件settings.py中找到 $site packages home$/e3_analysis/config。在此文件中配置 指向复制的生产MySQL实例的连接字典 包含。“db”设置应为“user”已写入的实例 访问。如果你来自维基媒体基金会之外 访问这些凭据请通过rfaulkner@wikimedi.org与我联系 喜欢处理这个包。
模板配置文件如下所示:
# Project settings # ================ __home__ = '/Users/rfaulkner/' __project_home__ = ''.join([__home__, 'projects/E3_analysis/']) __web_home__ = ''.join([__project_home__, 'web_interface/']) __sql_home__ = ''.join([__project_home__, 'SQL/']) __server_log_local_home__ = ''.join([__project_home__, 'logs/']) __data_file_dir__ = ''.join([__project_home__, 'data/']) __web_app_module__ = 'web_interface' __system_user__ = 'rfaulk' # Database connection settings # ============================ connections = { 'slave': { 'user' : 'research', 'host' : '127.0.0.1', 'db' : 'staging', 'passwd' : 'xxxx', 'port' : 3307}, 'slave-2': { 'user' : 'rfaulk', 'host' : '127.0.0.1', 'db' : 'rfaulk', 'passwd' : 'xxxx', 'port' : 3307} }
文件
安装完成并设置配置后, 模块可以导入到python环境中。可用的 操作模块如下:
src.etl.data_loader src.etl.aggregator src.etl.table_loader src.etl.log_parser src.etl.time_series_process_methods src.etl.wpapi src.metrics.blocks src.metrics.bytes_added src.metrics.live_account.pyc src.metrics.edit_count src.metrics.edit_rate src.metrics.live_account src.metrics.metrics_manager src.metrics.namespace_of_edits src.metrics.query_calls src.metrics.revert_rate src.metrics.survival src.metrics.time_to_threshold src.metrics.user_metric src.metrics.users src.utils.autovivification src.utils.multiprocessing_wrapper src.utils.record_type