GNIP历史图书馆和命令脚本。

gnip-historical的Python项目详细描述


python库和用于gnip历史powertrack api的命令行实用程序步骤:
1)创建作业
2)检索和审阅作业报价
3)接受或拒绝作业
4)下载数据文件列表
5)下载数据


包括不完整项,以帮助执行每个步骤。


安装实用程序
===
首先,设置您的GNIP凭据。有一个简单的实用工具可以创建名为".gnip"的本地凭据


$./setup_gnip_gnip creds.py
用户名:shendrickson@gnip.com
密码:
再次输入密码:
端点url。输入您的帐户名(例如https://historical.gnip.com:443/accounts/<;account name>;/):shendrickson
已完成文件创建。/.gnip
请确保运行:
chmod og-w.gnip

$chmod og-w.gnip

如果使用示例json作业描述,请确保更改"serviceusern"amefield"
对于您自己,即对于twitter,使用您的twitter句柄。

通过编辑提供的示例json文件("bieber_job1.json")创建作业描述。


FromDate和ToDate的格式为yyyymmddhhmm:

{
"数据格式":"活动流"
"FromDate":"201201201010000"
"发布者":"Twitter"
"规则":
[
{
"标记":"最佳规则"
"值":"bieber"
}
],
"serviceusername":"把你的twitter句柄放在这里",
"streamtype":"track",
"title":"bieber job1",
"todate":"201201010001"
}


创建作业,

$./创建作业py-f./bieber job1.json-t"社交数据表型-bieber"

响应是服务器返回的json记录。它将描述作业(包括作业ID和作业URL,或任何错误消息。

-前一个url使用前一个作业url(仅从此配置
文件。)。
-v,--详细输出。
-f文件名,--filename=filename
file定义作业(json)
-t标题,--title=title
t项目标题,此标题取代文件中的标题。




列出作业、获取作业报价并获取作业状态:
===========
$./列出作业。py-h
用法:list_jobs.py[选项]

选项:
-h,-帮助显示此帮助消息并退出
-u url,--url=url作业url。
-l,--prev url使用以前的作业url(仅来自此配置
文件。)。
-v,--verbose详细输出。
-d sincedatestring,--since date=sincedatestring
er date, (default
2012-01-01T00:00:00)

For example, I have three completed jobs, a Gnip job, a Bieber job and a SXSW
job for which data is avaiable.

$ ./list_jobs.py
#########################
TITLE: GNIP2012
STATUS: finished
进度:100.0%
100.0%
工作网址:https://historical.gnip.com:443/acaccounts/shendricckson/publi发布者/twitter/historal/track/jobs/eeh2vte64.json_______
标题:贾斯汀·比ber 2009
STATUS: finished
PROGRESS: 100.0 %
JOB URL: https://historical.gnip.com:443/accounts/shendrickson/publishers/twitter/historical/track/jobs/j5epx4e5c3.json
#########################
TITLE: SXSW2010-2012
STATUS: finished
PROGRESS: 100.0 %
JOB URL: https://historical.gnip.com:443/accounts/shendrickson/publishers/twitter/historical/track/jobs/sbxff05b8d.json



若要查看详细信息或下载数据文件列表,
使用-u或add-v标志指定URL(data_files.txt仅包含列表中最后一个作业的URL)


下载包含数据的文件的URL
==ile locations for the data files this job created on S3, pass
the job URL with the -u flag (or if you used -u for this job previously, just use -l--see help),

$ ./list_jobs.py -u https://historical.gnip.com:443/accounts/shendrickson/publishers/twitter/historical/track/jobs/sbxff05b8d.json
#########################
TITLE: SXSW2010-2012
状态:完成
进度:100.0%
作业URL:https://historical.gnip.com:443/accounts/shendrickson/publishers/twitter/historical/track/jobs/sbxff05b8d.json

结果:
作业完成时间……。2012-09-01 04:35:23
活动次数…….-1
文件数量…………-1
文件大小(MB)……-1
数据URL…………….https://historical.gnip.com:443/accounts/shendrickson/publishers/twitter/historical/track/jobs/sbxff05b8d/results.json
数据集:
网址数量…………131211
文件大小(字节)……2151308466
文件(URL)………https://archive.replay.historicals.review.s3.amazonaws.com/historicals/twitter/track/activity-streams/shendrickson/2012/08/28/20100101-20120815_sbxff05b8d/2010/01/01/00/00_activities.json.gz?awsaccesskeyid=akiaj7o2s22dn2ndn7uq&expires=1349066046&;signature=hdsc0a%2brqeg%2bknasawpzsuom1f0%3d
https://archive.replay.historicals.review.s3.amazonaws.com/historicals/twitter/track/activity-streams/shendrickson/2012/08/28/20100101-20120815椆sbxf05b8d/2010/01/01/00/10椆activities.json.gz?awsaccesskeyid=akiaj7o2s22dn2ndn7uq&expires=1349066046&signature=dozlxkumbyv5ukgmw4qrcopmevw%3d
https://archive.replay.historicals.review.s3.amazonaws.com/historicals/twitter/track/activity-streams/shendrickson/2012/08/28/20100101-20120815撸sbxff05b8d/2010/01/01/00/20撸activities.json.gz?awsaccesskeyid=akiaj7o2s22dn2ndn7uq&expires=1349066046&;signature=x4sftxm2x9y7qwgkcwg6fhh7w%3d
https://archive.replay.historicals.review.s3.amazonaws.com/historicals/twitter/track/activity-streams/shendrickson/2012/08/28/20100101-20120815撸sbxff05b8d/2010/01/01/00/30撸activities.json.gz?awsaccesskeyid=akiaj7o2s22dn2ndn7uq&expires=1349066046&;signature=wvubkurx%2bazyezlx9unbamscrhg%3d
https://archive.replay.historicals.review.s3.amazonaws.com/historicals/twitter/track/activity-streams/shendrickson/2012/08/28/20100101-20120815撸sbxff05b8d/2010/01/01/00/40撸activities.json.gz?awsasaccesskeyid=akaj7o2s22dn2ndn7uq&;expires=1349066046&;signature=og9yygklxxxnxjllaw3h5yyw%3d



将文件写入data-cufile.txt…
















<下载数据
=====












>至使用实用程序

$./获取数据文件.bash



这将启动多达8个到s3的同时curl连接,将文件下载到本地。/数据/年/月/日/小时…目录树(有关详细信息,请参阅name_mangle.py)。


作业在被接受之前不会启动。

$./接受作业-u https://historical.gnip.com:443/accounts/shendrickson/publishers/twitter/historicals/track/jobs/c9pe0day6h.json



$./reject_job-u https://historical.gnip.com:443/accounts/shendrickson/publishers/twitter/historicals/track/jobs/c9pe0day6h.json


=
ott hendrickson是根据creative commons attribution sharelike 3.0 unported license授权的。此作品是在Creative Commons Attribution Sharelike 3.0 Unported许可下授权的。要查看此许可证的副本,请访问http://creativecommons.org/licenses/by sa/3.0/。

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java如何将JButton合并到图形中?   java在每个循环中使用基类类型或派生类类型   JavaSwingGUI应用程序完全是空白的,没有任何内容,而按钮被添加到面板中   java Android获取getDefaultSensor括号时出错   java Spring引导和安全性与AngularJS登录页面   java注销appengine应用程序而不从google注销。通用域名格式   java仅在发生错误或异常时创建日志文件,而不使用log4j   java get json数组和Retrift 2   swing中的java响应映像   为什么java的inputstream。close()块?   java驱动管理器。getConnection()非常冗长   java如何使用joml将标准化向量旋转到一个点   ubuntu将Java程序的输出结果保存到一个文件中   java动态可拖动、可编辑和自动调整大小的文本字段