Python - 如何在大数据集上计算多项式概率密度函数？

Question

我最开始打算用MATLAB来解决这个问题，但它自带的功能有一些限制，不太适合我的需求。NumPy也有同样的问题。

我有两个用制表符分隔的文件。第一个文件显示了氨基酸残基、频率和计数，数据来自一个内部的蛋白质结构数据库，也就是：

A    0.25    1
S    0.25    1
T    0.25    1
P    0.25    1

第二个文件包含了氨基酸的四元组以及它们出现的次数，也就是：

ASTP    1

注意，这里有超过8000个这样的四元组。

根据每种氨基酸的背景出现频率和四元组的计数，我想计算每个四元组的多项式概率密度函数，然后将其作为最大似然计算中的期望值。

多项式分布的公式如下：

f(x|n, p) = n!/(x1!*x2!*...*xk!)*((p1^x1)*(p2^x2)*...*(pk^xk))

其中x是n次试验中每个k种结果的数量，p是固定的概率。在我的计算中，n始终是4。

我已经创建了四个函数来计算这个分布。

# functions for multinomial distribution


def expected_quadruplets(x, y):
    expected = x*y
    return expected

# calculates the probabilities of occurence raised to the number of occurrences

def prod_prob(p1, a, p2, b, p3, c, p4, d):
    prob_prod = (pow(p1, a))*(pow(p2, b))*(pow(p3, c))*(pow(p4, d))
    return prob_prod 


# factorial() and multinomial_coefficient() work in tandem to calculate C, the multinomial coefficient

def factorial(n):
    if n <= 1:
        return 1
    return n*factorial(n-1)


def multinomial_coefficient(a, b, c, d):
    n = 24.0
    multi_coeff =  (n/(factorial(a) * factorial(b) * factorial(c) * factorial(d)))
    return multi_coeff

问题在于如何更好地组织数据，以便高效地进行计算，同时我能看懂（你们写的代码有点难懂 :-))，并且不会出现溢出或运行时错误。

到目前为止，我的数据是用嵌套列表表示的。

amino_acids = [['A', '0.25', '1'], ['S', '0.25', '1'], ['T', '0.25', '1'], ['P', '0.25', '1']]

quadruplets = [['ASTP', '1']]

我最开始打算在一个嵌套的for循环中调用这些函数，但这导致了运行时错误或溢出错误。我知道可以重置递归限制，但我希望能有更优雅的解决方案。

我有以下代码：

for i in quadruplets:
    quad = i[0].split(' ')
    for j in amino_acids:
        for k in quadruplets:
            for v in k:
                if j[0] == v:
                    multinomial_coefficient(int(j[2]), int(j[2]), int(j[2]), int(j[2]))

我还没有真正想好如何将其他函数结合进来。我觉得我现在的嵌套列表安排不是最优的。

我想将字符串'ASTP'中的每个字母与amino_acids中每个子列表的第一个元素进行比较。如果有匹配，我希望通过索引将相应的数值传递给函数。

有没有更好的方法？我能否在循环中将每个氨基酸和四元组的相应数字添加到一个临时数据结构中，然后传递给函数，并在下一次迭代前清空它？

谢谢，S :-)

嵌套列表运行时错误大数据概率密度函数多项式分布数据组织最大似然估计氨基酸四元组

Python - 如何在大数据集上计算多项式概率密度函数？

1 个回答

撰写回答