twitter股市机器学习包

twistml的Python项目详细描述


扭转ml

twistml是一个使处理原始twitter数据更容易的包 对于机器学习任务,比如预测库存的变化 市场。

twistml实现了一个包含twitter过滤的管道 数据、预处理、特征提取 表现(文字袋,情感袋,doc2vec),回归/ 使用sklearn包中的算法进行分类,以及 模型选择/评估。

api文档可在TwistML’s PyPI page找到。更注重使用 文档很快就来了,在那之前你可以得到完整的包 从bitbucket(也链接到pypi页面)查看 一些使用示例的“实验”文件夹。

twistml是作为我硕士论文的一部分开发的,我希望 以后再改进。

安装

您可以使用pip安装twistml,如下所示:

$ pip install twistml

请确保安装了numpy、scipy和gensim 好。我已选择不将它们添加到所需的安装中,因为 在我自己的windows机器上的测试中引起了问题。(对于纽比 问题被描述为here)因此这些包将 不是由PIP自动安装的。

已知问题和计划改进

  • 实现一个DateRange类并替换FromDate的所有匹配项, 日期,日期格式。
  • 实现完全不带日期范围的find_files()。应该是 可以简单地处理目录中的所有文件(也可以 递归地)
  • twistml目前假设原始twitter数据作为一个 每天json文件。确保Internet存档的文件方案是 也支持
  • 添加对小时时间分辨率的支持,而不是只支持每天。
  • 评估子包只能处理二进制分类。 可能探索添加多类。
  • 当前设置日志的方式很奇怪,应该重新编写。
  • gensim的labeled森特已被弃用,请改用taggeddocument

更改

版本0.9

  • 已将状态更改为beta版
  • 添加了通过sphinx和numpydoc生成的api文档
  • Doc2VecTransformer现在支持迭代训练 (见:http://rare-technologies.com/doc2vec-tutorial/
  • 回归评估现在可以将预测视为二元的 分类和评估AUC和F1
  • 更改了一些命令行脚本以获得更直观的用法
  • 各种小修补程序

版本0.2.4

^ {STR 1 }注意:其中一些可能会破坏现有代码!

  • 将combine_tweets.py重命名为combine.py
  • 增加了对功能堆叠的支持
  • 分类目标现在是0/1而不是-1/1
  • 添加到yData模块->;创建一些用于测试的toyData
  • 将F1分数添加到分类评估中
  • 添加了其他窗口函数:window_stack和window_element_avg

版本0.2.3

  • 改进的长描述生成
  • 已修复更改。rst

版本0.2.2

  • 基于textblob情感添加情感功能

版本0.2.1

  • 为复杂类别子集添加功能 tml生成功能
  • 还改进了tml生成特性的文档(在命令行 以及docstring)
  • 提高了测试覆盖率

版本0.2.0

  • 将开发状态更改为alpha
  • 删除了Sentence2vec,因为该功能包含在当前 gensim版本的doc2vec类
  • 添加了更改日志

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java Requestcontextholder在spring 4中具有并发访问权限。IBMWebSphere上的x Web应用程序?   java如何下载、设置和使用Eclipse?   java如何组合这些mysql语句   java JDBC无法连接到openshift上的mysql数据库   如果存在允许正确处理的重载,java对于方便的方法来说是否可行?   使用hibernate序列的java Spring MVC不存在   具有路径的java Selenium ChromeDriver负载扩展问题   读一本书。java中的java文件   退出队列时,Java队列程序结果为空   Java lambda返回带有重复代码问题的列表   java使用意图从其他活动传递数据并在listview中显示   java如何在java中创建JSON输出   java Android:在不破坏或暂停活动的情况下关闭显示   支持Android电视和手机的java多apk   关于Java应用程序测试和调试的一组问题   如何在JavaSE中使用jdbcRealmShiro进行授权   在java中是否有一个无异常检查的URL解析实用程序?   当页面上有多个相同类型的元素时,java会选择一个特定的元素   递归需要帮助发现java代码中的缺陷