如何在磁盘上存储一个巨大的马尔可夫链，同时又能在不使用太多RAM的情况下查询它？

{',': {'this': {'is': 1}}, 'an': {'example': {',': 1}}, 'example': {',': {'this': 1}}, 'is': {'not': {'serious': 1}, 'purely': {'an': 1}}, 'not': {'serious': {'.': 1}}, 'purely': {'an': {'example': 1}}, 'this': {'is': {'not': 1, 'purely': 1}}}

1条回答

网友

1楼 · 发布于 2024-05-31 23:47:19

马尔可夫过程在某种意义上是一个概率状态机，它满足马尔可夫特性（你可以从任何状态启动状态机，这样过去的事件不会影响概率）。在

因此，您应该存储一个状态索引（通过它进行查询），以及一个Blob或更具描述性的内容，其中包括可以转换到的状态及其概率。在

在构建状态索引时，不应该只使用增量索引，而应该使用某种类似二进制搜索的方法，这在机器学习应用程序的领域中是有意义的。在

例如，对于“is”、“not”、“purely”和“this”（为了简单起见，我省略了“，”，“an”，“example”）可以有状态1000 1100 0100和0000。然后，状态“this is”将为0001，第一个00表示“this”，第二个01表示“is”。在这里，我假设“this is”将包含完整状态，例如，在您的数据集中不会有另一个“this is”。如果是这样的话，我认为这是对Markov属性的破坏或查询逻辑中的缺陷（而不是bigram，您应该查询其他东西）。在

无论如何，这应该是RAM高效的，可以让你有多种搜索策略。在

相关问题更多 >

编程相关推荐

热门问题

热门文章