简单的机器学习问题。可能有很多方法可以解决这个问题:
有一个由4个可能事件组成的无限流:
'event_1', 'event_2', 'event_4', 'event_4'
事件不是完全随机的。我们假设大多数事件的顺序都有一些复杂的模式,而其余的事件都是随机的。不过,我们并不提前知道模式。
在收到每个事件之后,我想根据事件过去的顺序来预测下一个事件是什么。所以我的问题是:我应该用什么机器学习算法来预测?
然后将告诉预测者下一个事件实际上是什么:
Predictor=new_predictor()
prev_event=False
while True:
event=get_event()
if prev_event is not False:
Predictor.last_event_was(prev_event)
predicted_event=Predictor.predict_next_event(event)
问题是,预测者应该维持多久的历史,因为维持无限的历史是不可能的。我会让你来回答的。尽管出于实用性考虑,答案不可能是不忠。
所以我相信,这些预测将不得不用某种滚动的历史来完成。因此,添加新事件和终止旧事件应该相当有效,而不需要重建整个预测模型。
具体的代码,而不是研究论文,会给我的回答增加巨大的价值。Python或C库很好,但是任何东西都可以。
更新:如果在每一轮中可以同时发生多个事件怎么办。这改变了解决方案吗?
与其保留完整的历史记录,不如保留过去的聚合信息(以及相对较短的滑动历史记录,用作预测逻辑的输入)。
一个暂定的实现可以如下:
简而言之:管理一组递增阶的马尔可夫链,以及分级和平均它们的预测
表从空开始,在观察到第二个事件时,我们可以存储第一个bigram,其计数为1。在第三个事件上,由第二个和第三个事件组成的bigram被“添加”到表中:要么增加现有bigram的计数,要么添加原始计数1,作为一个新的(迄今为止从未见过的)bigram。等
同时,在表中保留bigram的总数。
此表和总计数允许基于前一个事件计算给定事件的概率。
上面描述的一般逻辑可以有几个变体。特别是在选择用于“分级”单个N-Gram长度的预测质量的特定度量时。
对于检测和适应事件分布中的可能变化,还应考虑其他因素(上述假设通常是遍历事件源)。一种可能的方法是使用两组表(相应地组合概率),并定期删除其中一组表中所有表的内容。为这些重置选择正确的时间段是一项棘手的工作,基本上平衡了对具有统计意义的大量历史数据的需求和对足够短的时间段的需求,以免我错过较短的调整。。。
这本质上是一个序列预测问题,所以你需要递归神经网络或隐马尔可夫模型。
如果你只有一个固定的回顾时间,时间窗口的方法可能就足够了。将序列数据拆分成长度为n的重叠窗口(例如,将序列a BCD EFG拆分为ABC、BCD、CDE、DEF、EFG)。然后训练一个函数逼近器(例如神经网络或线性回归),将窗口的前n-1部分映射到第n部分。
你的预测者将无法在超过你窗口大小的时间内回顾过去。RNN和HMM在理论上可以做到这一点,但很难调整,或者有时根本不起作用。
(最先进的RNN实现可以在PyBrainhttp://pybrain.org中找到)
更新:这是你的问题的pybrain代码。(我还没有测试过,可能有一些拼写错误和其他东西,但总体结构应该可以工作。)
这将训练1000个周期性网络,并在每个周期后打印错误。之后,您可以检查以下预测是否正确:
这将为每个事件打印一个布尔数组。
唯一的答案是“视情况而定”。
这取决于需要多精确。我不相信这个策略在无限的历史中也能100%准确。尝试10的历史,你会得到x%的准确率,然后尝试100,你会得到y%的准确率,等等。。。
最终,你会发现要么系统是你想要的那样精确,要么你会发现精确性的提高不值得历史长度的增加(以及内存使用量、处理时间的增加等等)。此时要么完成工作,要么你需要找到一个新的策略。
值得一提的是,我认为研究一个简单的“软”神经网络可能是一个更好的计划。
相关问题 更多 >
编程相关推荐