tsfresh从时间序列中提取相关特征

tsfresh的Python项目详细描述


Documentation StatusBuild StatusCoverage StatuslicenseGitter chatpy27 statuspy352 statusBinderDownloads

t刷新

此存储库包含tsfreshpython包。缩写代表

“基于可伸缩假设检验的时间序列特征提取”

该软件包包含多种特征提取方法和一种稳健的特征选择算法。

在功能工程上花费更少的时间

数据科学家通常把大部分时间花在清理数据或构建特征上。 虽然我们不能改变第一件事,但第二件事可以自动化。 tsfresh通过自动提取功能来释放您用于构建功能的时间。 因此,你有更多的时间学习最新的深度学习论文,阅读黑客新闻或建立更好的模型。

自动提取100个特征

tsfresh自动从时间序列中提取100个特征。 这些特征描述了时间序列的基本特征,如峰数、平均值或最大值或更复杂的特征,如时间反转对称统计。

The features extracted from a exemplary time series

然后,可以使用这组特征在时间序列上构造统计或机器学习模型,例如在回归或 分类任务。

忘记不相关的功能

时间序列通常包含噪声、冗余或不相关的信息。 因此,大多数提取的特征对于手头的机器学习任务将没有用处。

为了避免提取不相关的特性,tsfresh包有一个内置的过滤过程。 这个过滤过程评估每个特征对于手头的回归或分类任务的解释能力和重要性。

它基于成熟的假设检验理论,采用多重检验方法。 因此,滤波过程在数学上控制不相关提取特征的百分比。

tsfresh包在下面的开放存取文件中介绍

  • Christ,M.,Braun,N.,Neuffer,J.和Kempa Liehr A.W.(2018年)。 基于可伸缩假设测试(tsfresh——一个python包)的时间序列特征提取。 神经计算307(2018)72-77,doi:10.1016/j.neucom.2018.03.067

新算法在下面的白皮书中介绍

  • Christ,M.,Kempa Liehr,A.W.和Feindt,M.(2017年)。
    用于工业大数据应用的分布式并行时间序列特征提取。
    arxiv电子打印1610.07717,https://arxiv.org/abs/1610.07717

tsfresh的优点

tsfresh有几个卖点,例如

  1. 它经过现场测试
  2. 它经过单元测试
  3. 滤波过程在统计/数学上是正确的
  4. 它有一个全面的文档
  5. 它与sklearn、pandas和numpy兼容
  6. 它允许任何人轻松地添加自己喜爱的功能
  7. 它既可以在本地计算机上运行,也可以在群集上运行

下一步

如果您对技术工作感兴趣,请访问http://tsfresh.readthedocs.io查看我们的全面文档阅读。

文中还对算法,特别是滤波部分进行了描述。

如果您有问题或反馈,可以在gitter chatroom.

如果您有兴趣帮助我们使tsfresh成为python中最大的特征提取方法存档,请直接阅读我们的How-To-Contribute说明,我们将不胜感激。

致谢

tsfresh的研究和开发部分由德国联邦教育和研究部资助,赠款编号为01is14004(iprodict项目)。

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
使用Java将JSON转换为哈希映射   java如何通过使用MapStruct从源对象复制值来填充目标对象内部的映射?   注入泛型类型为@InjectGuice的类时发生java错误   字符串如何在JavaIDE中导入基本符号   在Java中将JSON转换为List<List<String>>   java Java9 HttpClient SSLHandshakeException   java jOOQ代码生成器   java如何调整图标(图像按钮),使其不会放大?   java我可以在使用Eclipse时安装2个或更多Android SDK吗   sqlite Java实现DAO   如何解决此错误?“java.lang.NoSuchFieldError:org.apache.http.conn.ssl.SSLConnectionSocketFactory上的实例。<clinit>。”   java Maven:将基于OSP的zip文件解压缩到WEBINF/lib   java如何在每次调用函数时获取当前gps位置?