如何检测时间序列数据的变化是否不再显著?
我有一组新闻文章,每篇文章都有一些统计数据,比如在一段时间内提到这篇文章的推文数量。通常情况下,这些统计数据的变化是这样的:新发布的推文数量一开始增长很快,然后随着新闻的时间推移,数量会减少。
我想知道怎么计算出在多少天之后,这些统计数据的变化就不再显著了(比如说:变化小于总推文数量的0.1%),并且希望这个计算结果有一定的可信度。
你能给我一些建议,告诉我可以在哪里找到相关的信息和方法吗?如果能提供一些Python的代码示例就更好了 :)
1 个回答
9
这个问题其实是关于时间序列分析的。如果你想找出一个截止点,首先可以看看控制图,这是个不错的起点。
如果你想更深入了解统计学(不仅限于控制图),可以研究一下变点分析,还有时间序列中的结构变化。
Python模块:要在Python中进行这种分析,NumPy和pandas模块是很重要的。你可以参考这篇statalgo的文章,里面有关于Python代码的指导。(如果你愿意使用R进行分析,可以考虑CRAN包tseries和strucchange。)
相关问题在SE(统计):如何检测时间序列数据中的变化?
相关的现实生活例子:在奥萨马·本·拉登去世后,有很多关于这条新闻在Twitter上如何传播的分析。文章中甚至有一部分专门讨论了关于新闻传播停止的问题。
最后,你也可以考虑在Stats SE网站上问这个问题。
希望这些信息对你有帮助。