twitter股市机器学习包
twistml的Python项目详细描述
扭转ml
twistml是一个使处理原始twitter数据更容易的包 对于机器学习任务,比如预测库存的变化 市场。
twistml实现了一个包含twitter过滤的管道 数据、预处理、特征提取 表现(文字袋,情感袋,doc2vec),回归/ 使用sklearn包中的算法进行分类,以及 模型选择/评估。
api文档可在TwistML’s PyPI page找到。更注重使用 文档很快就来了,在那之前你可以得到完整的包 从bitbucket(也链接到pypi页面)查看 一些使用示例的“实验”文件夹。
twistml是作为我硕士论文的一部分开发的,我希望 以后再改进。
安装
您可以使用pip安装twistml,如下所示:
$ pip install twistml
请确保安装了numpy、scipy和gensim 好。我已选择不将它们添加到所需的安装中,因为 在我自己的windows机器上的测试中引起了问题。(对于纽比 问题被描述为here)因此这些包将 不是由PIP自动安装的。
已知问题和计划改进
- 实现一个DateRange类并替换FromDate的所有匹配项, 日期,日期格式。
- 实现完全不带日期范围的find_files()。应该是 可以简单地处理目录中的所有文件(也可以 递归地)
- twistml目前假设原始twitter数据作为一个 每天json文件。确保Internet存档的文件方案是 也支持
- 添加对小时时间分辨率的支持,而不是只支持每天。
- 评估子包只能处理二进制分类。 可能探索添加多类。
- 当前设置日志的方式很奇怪,应该重新编写。
- gensim的labeled森特已被弃用,请改用taggeddocument
更改
版本0.9
- 已将状态更改为beta版
- 添加了通过sphinx和numpydoc生成的api文档
- Doc2VecTransformer现在支持迭代训练 (见:http://rare-technologies.com/doc2vec-tutorial/)
- 回归评估现在可以将预测视为二元的 分类和评估AUC和F1
- 更改了一些命令行脚本以获得更直观的用法
- 各种小修补程序
版本0.2.4
^ {STR 1 }注意:其中一些可能会破坏现有代码!!
- 将combine_tweets.py重命名为combine.py
- 增加了对功能堆叠的支持
- 分类目标现在是0/1而不是-1/1
- 添加到yData模块->;创建一些用于测试的toyData
- 将F1分数添加到分类评估中
- 添加了其他窗口函数:window_stack和window_element_avg
版本0.2.3
- 改进的长描述生成
- 已修复更改。rst
版本0.2.2
- 基于textblob情感添加情感功能
版本0.2.1
- 为复杂类别子集添加功能 tml生成功能
- 还改进了tml生成特性的文档(在命令行 以及docstring)
- 提高了测试覆盖率
版本0.2.0
- 将开发状态更改为alpha
- 删除了Sentence2vec,因为该功能包含在当前 gensim版本的doc2vec类
- 添加了更改日志