如何从timeseries数据中提取有用的特性(例如,用户在论坛中的日常活动)

2024-06-02 04:27:54 发布

您现在位置:Python中文网/ 问答频道 /正文

我有一个为期一周的用户访问量和论坛帖子的数据,这些数据包含活动的时间戳。基于这个论坛的数据,我试图预测用户的另一种行为(比如X行为)。回归模型的初步结果表明,用户的论坛活动似乎与他们的X行为有关。除了这些累积特性:每天平均访问量整个星期的全部帖子数,我还有每天(0<a<8)的功能:{a}访问量{a}帖子。在

因此,我总共有16个特征,用这16个特征构建的回归模型给出了有希望的结果。所以,如果我能生成更多的特性,那就更有意义了。然而,我不知道是否有任何有用的特征提取策略,对于这样的时间序列数据。我正在使用sklearn,但没有看到用于此目的的方法。有什么想法或建议吗?在


Tags: 数据用户模型目的功能时间序列特征
1条回答
网友
1楼 · 发布于 2024-06-02 04:27:54

有很多选择,很难建议哪一个对预测未知的“x行为”更有用。但是,您可以:

  1. 手动创建表示在原始数据中明确可用但在当前要素集中根本不存在的信息的要素。例如,如果您不仅记录了日期,还记录了活动时间,那么您可以为每天的首次/最后一次/平均访问时间(可能转换为上午/白天/晚上/晚上)、平均访问间隔时间等构建附加功能。也许一周中的每一天的信息也是有用的。

  2. 从现有集合中手动创建相关特征:例如,每天的访问/发布比率、自上次发布以来的天数、最长不访问时间等

  3. 如果可以,请使用其他信息:用户的浏览器、操作系统、屏幕分辨率、文章长度、他/她的帖子中存在的关键字、它所属的子窗体、新帖子或后续内容。。。-再说一次,很难事先判断出哪些是相关的。

  4. 通过tsfresh或(自动化程度较低)hctsa等包进行自动特征提取

相关问题 更多 >