Python,从时间序列中提取特征(TSFRESH包或我可以使用什么?)

2024-04-24 06:33:06 发布

您现在位置:Python中文网/ 问答频道 /正文

我需要一些关于时间序列特征提取的帮助,也许可以使用TSFRESH软件包

我有大约5000个CSV文件,每个文件都是一个时间序列(长度可能不同)。CSV时间序列非常简单:

CSV时间序列文件的示例: |日期|值| | ------ | ----- | |1904年1月1日01:00:00000000 | 1464844E-3| |1904年1月1日01:00:01000000 | 1953125E-3| |1904年1月1日01:00:02000000| 4882813E-4| |1904年1月1日01:00:03000000 |-2441406E-3| |1904年1月1日01:00:04000000 |-9765625E-4| | ... | ... |

除了这些CSV文件,我还有一个元数据文件(CSV格式),其中每一行都引用5000个CSV时间序列中的一个,并报告关于该时间序列的更多一般信息,如能量等

元数据CSV文件的示例: |CSV时间序列的路径|标签|能量|穿透|孔隙度| | ------ | ----- | ------ | ----- | ----- | ----------- | | ... | ... | ... | ... | ... | ... | | ... | ... | ... | ... | ... | ... | | ... | ... | ... | ... | ... | ... |

最重要的列是“标签”列,因为它报告CSV时间序列是否标记为:

  1. 坏的

我也应该考虑能量、渗透性和孔隙度列,因为这些值在时间序列的标记中有很大的作用。(我已经通过只查看特征尝试了决策树,现在我想分析时间序列以提取知识)

我打算从时间序列中提取特征,以便我能够理解哪些特征使得一个时间序列被标记为“好”或“坏”

我怎样才能用TSFRESH做到这一点? 还有其他方法吗

你能告诉我怎么做吗?谢谢:)


Tags: 文件csv标记信息示例数据文件格式报告
1条回答
网友
1楼 · 发布于 2024-04-24 06:33:06

我现在也在做类似的事情this example jupyter notebook from github帮助了我

简而言之,基本流程是:

  1. 以可接受的格式提供时间序列,有关详细信息,请参见the tsfresh documentation
  2. 使用X = extract_features(...)从时间序列中提取特征
  3. 使用X_filtered = select_features(X, y)选择相关功能,其中y为标签,好或坏为1和0
  4. 将选定的功能放入分类器,也显示在jupyter笔记本中

相关问题 更多 >