"大量文本文件中的三卦概率"

2024-06-06 21:01:33 发布

您现在位置:Python中文网/ 问答频道 /正文

我有一个庞大的孟加拉语单语语料库,其中包括超过一亿孟加拉语句子。语料库为.txt格式,文件大小为1.8gb。 现在,为了建立一个孟加拉语语法检查器,我需要使用这个巨大的语料库来计算三元语言的概率。然而,要在如此大的文件中找到三元概率,似乎要花费大量的时间。请建议如何解决这个问题,我应该在这种情况下使用哪些技术。我应该使用php还是python?我在这两方面都有足够的知识。短暂性脑缺血发作


Tags: 文件txt语言格式时间语法情况概率
1条回答
网友
1楼 · 发布于 2024-06-06 21:01:33

如果您已经知道这将是一个挑战,让它工作,为什么让你的生活艰难,并使用Python或更糟的,PHP?你知道吗

这是一个相当简单的任务:计数。你知道吗

如果你需要更快的速度,你可以用一种内存效率更高,速度更快的语言,比如C来实现。例如,在C中一个整数(需要很多)是4字节,在Python中需要12字节,这些字节很可能存储在不同的内存位置,因此您有另外8个字节来引用整数所在的位置。纯python方法很容易需要的内存是C版本的3-4倍。所有这些内存间接寻址也会降低性能。你知道吗

接下来的步骤仍然可以使用Python。你知道吗

相关问题 更多 >