Python 列表推导及其他更好实践

Question

这段内容是关于一个项目，目的是把一个用SAS写的双向方差分析程序转换成Python。

我大概是从星期四开始学习Python的，所以我知道自己还有很多需要提高的地方。如果我漏掉了什么明显的东西，请告诉我。目前我还没有安装Sage和numpy，所以现在用的都是比较基础的Python 2.6.1（便携版）。

主要问题是：我需要一组好的列表推导式，能够根据因素A和因素B提取样本数据，按整体和每个因素A和B的水平分组（AxB）来提取。

经过一些工作，数据现在是这样的形式（有三层嵌套列表）：

response[a][b][n]

（意思是 [a1 [b1 [n1, ... ,nN] ...[bB [n1, ...nN]]], ... ,[aA [b1 [n1, ... ,nN] ...[bB [n1, ...nN]]] 希望这样说清楚了。）

在我的例子中，因素的水平是：A=3（0-2），B=8（0-7），N=8（0-7）

byA= [[a[i] for i in range(b)] for a[b] in response]

（有人能解释一下为什么这个语法有效吗？我是在尝试看看解析器能接受什么时偶然发现的。我在其他地方没见过这种语法和这种行为，但它真的很不错。如果有好的链接或者书籍推荐，感谢！编辑：变量在运行之间的持久性解释了这个奇怪的现象。它并不有效。）

byB=lstcrunch([[Bs[i] for i in range(len(Bs)) ]for Bs in response])

（值得注意的是，zip(*response)几乎能做到我想要的。上面的版本实际上并没有工作，我记得。我还没有经过仔细测试。）

byAxB= [item for sublist in response for item in sublist]

（这是从Alex Martelli在这个网站上的一个回答中借来的。再问一次，有人能解释一下为什么吗？我读的书里对列表推导式的语法解释得不是很好。）

ByO= [item for sublist in byAxB for item in sublist]

（显然，我只是重复使用了之前的推导式，因为它满足了我的需求。编辑：）

我希望这些最终能得到相同的数据类型，至少在通过相关因素循环时，这样就可以应用和使用相同的平均值/总和/平方和等函数。

这可以很容易地被更简洁的方式替代：

def lstcrunch(Dlist):
    """Returns a list containing the entire
    contents of whatever is imported,
    reduced by one level.

    If a rectangular array, it reduces a dimension by one.
    lstcrunch(DataSet[a][b]) -> DataOutput[a]
    [[1, 2], [[2, 3], [2, 4]]] -> [1, 2, [2, 3], [2, 4]]
    """
    flat=[]
    if islist(Dlist):#1D top level list
        for i in Dlist:
            if islist(i):
                flat+= i
            else:
                flat.append(i)
        return flat
    else:
        return [Dlist]

哦，既然提到这个，识别一个变量为列表的最佳方法是什么？我一直在使用：

def islist(a):
    "Returns 'True' if input is a list and 'False' otherwise"
    return type(a)==type([])

最后一个问题：有没有办法明确地强制浅拷贝转换为深拷贝？或者，当复制到一个变量时，有没有办法声明这个赋值也要替换指针，而不仅仅是值？（这样赋值就不会传播到其他的浅拷贝）类似地，使用这个在某些时候也可能很有用，所以能够控制何时发生或不发生听起来真的不错。

（当我准备插入表格时，我搞得一团糟，调用了： response=[[[0]*N]*B]*A）

编辑：进一步调查后发现大部分内容都能正常工作。我已经创建了类并进行了测试，效果很好。我会保留列表推导式的形式以供参考。

def byB(array_a_b_c):
    y=range(len(array_a_b_c))
    x=range(len(array_a_b_c[0]))
    return [[array_a_b_c[i][j][k]
    for k in range(len(array_a_b_c[0][0]))
    for i in y]
    for j in x]


def byA(array_a_b_c):
    return [[repn for rowB in rowA for repn in rowB] 
    for rowA in array_a_b_c]

def byAxB(array_a_b_c):
    return [rowB for rowA in array_a_b_c 
    for rowB in rowA]

def byO(array_a_b_c):
    return [rep
    for rowA in array_a_b_c
    for rowB in rowA
    for rep in rowB]


def gen3d(row, col, inner):
"""Produces a 3d nested array without any naughty shallow copies.

[row[col[inner]] named s.t. the outer can be split on, per lprn for easy display"""
    return [[[k for k in range(inner)]
    for i in range(col)]
    for j in range(row)]

def lprn(X):
    """This prints a list by lines.

    Not fancy, but works"""
    if isiterable(X):
        for line in X: print line
    else:
        print x

def isiterable(a):
    return hasattr(a, "__iter__")

感谢所有回复的人。由于我的知识有所提高，代码质量已经有了明显的改善。当然，进一步的想法仍然很受欢迎。

数据处理数据类型列表推导嵌套列表深拷贝浅拷贝双向方差分析变量持久性

Python 列表推导及其他更好实践

3 个回答

撰写回答