在较大的lis中处理可变大小的子列表

#import BioPython Tools from Bio.Seq import Seq from Bio.Alphabet import IUPAC #import csv tools import csv import sys import os with open('constructs-to-make.csv', 'rU') as constructs: construct_list = csv.reader(constructs, delimiter=',') construct_list.next() construct_number = 1 primer_list = [] temp_list = [] counter = 2 for row in construct_list: print('Current row is row number ' + str(counter)) print('Current construct number is ' + str(construct_number)) print('Current assembly type is ' + row[1]) if row[1] == "Gibson": #here, we process the Gibson assemblies first print('Current construct number is: #' + row[0] + ' on row ' + str(counter) + ', which is a Gibson assembly') ## print(int(row[0])) ## print(row[3]) if int(row[0]) == construct_number: print('Adding DNA sequence from row ' + str(counter) + ' for construct number ' + row[0]) temp_list.append(str(row[3])) counter += 1 if int(row[0]) > construct_number: print('Current construct number is ' + str(row[0]) + ', which is greater than the current construct number, ' + str(construct_number)) print('Therefore, going to work on construct number ' + str(construct_number)) for part in temp_list: #process the primer design work here print('test') ## print(part) construct_number += 1 temp_list = [] print('Adding DNA from row #' + str(counter) + ' from construct number ' + str(construct_number)) temp_list.append(row) print('Next construct number is number ' + str(construct_number)) counter += 1 ## counter += 1 if str(row[1]) == "iPCR": print('Current construct number is: ' + row[0] + ' on row ' + str(counter) + ', which is an iPCR assembly.') #process the primer design work here #get first 60 nucleotides from the sequence sequence = row[3] fw_primer = sequence[1:61] print('Sequence of forward primer:') print(fw_primer) last_sixty = sequence[-60:] ## print(last_sixty) re_primer = Seq(last_sixty).reverse_complement() print('Sequence of reverse primer:') print(re_primer) #ending code: add 1 to counter and construct number counter += 1 construct_number += 1 ## if int(row[0]) == construct_number: ## else: ## counter += 1 ## construct_number += 1 ## print(temp_list) ## for row in temp_list: ## print(temp_list) ## print(temp_list[-1]) # fw_primer = temp_list[counter - 1].

2条回答

网友

1楼 · 编辑于 2024-04-27 14:24:28

The problem with this code is that if I have n "constructs" (a.k.a. plasmids) that I'm trying to build by "Gibson" assembly, it will process the first n-1 plasmids, but not the last one.

这实际上是一个普遍的问题，最简单的解决方法是在循环之后添加一个检查，如下所示：

for row in construct_list:
    do all your existing code
if we have a current Gibson list:
    repeat the code to process it.

当然，你不想重复你自己…所以你把工作转移到一个函数中，你在两个地方都调用这个函数。在

不过，我可能会用不同的方式来写这个，使用^{}。我知道乍一看这可能看起来“太先进了”，但值得一试，看看你是否能理解它，因为它使事情简单得多。在

^{pr2}$

现在，您将把每个构造作为一个单独的列表，因此根本不需要temp_list。例如，第一组将是：

[[1, 'Gibson', 'P(OmpC)-cI::P(cI)-LacZ controller'],
 [1, 'Gibson', 'P(OmpC)-cI::P(cI)-LacZ controller'],
 [1, 'Gibson', 'P(OmpC)-cI::P(cI)-LacZ controller']]

接下来是：

[[2, 'iPCR', 'P(cpcG2)-K1F controller with K1F pos. feedback']]

最后也不会有剩下的人担心了。在

所以：

for group in itertools.groupby(construct_list, key=get_strategy):
    construct_strategy = get_strategy(group[0])
    if construct_strategy == "Gibson":
        # your existing code, using group instead of temp_list,
        # and no need to maintain temp_list at all
    elif construct_strategy == 'iPCR":
        # your existing code, using group[0] instead of row

一旦你克服了抽象障碍，用这种方式来思考问题就简单多了。在

事实上，一旦你开始直观地掌握迭代器，你就会发现itertools（以及它的docs页面上的菜谱，第三方库more_itertools，以及你可以自己编写的类似代码）把很多复杂的问题变成了非常简单的问题。“如何跟踪行列表中的当前匹配行组？”是“保留一个临时列表，记住每次组更改时都要检查它，然后在结尾处再次检查是否有剩余项”，但它的答案是“如何将行迭代转换为行组迭代？”是“在groupby中包装迭代器。”

您可能还想添加一个assert或其他检查all(row[1] == construct_strategy for row in group[1:])，在iPCR的情况下，len(group) == 1，没有意外的第三个策略，等等，所以当您不可避免地遇到错误时，可以更容易地判断它是坏数据还是坏代码。在

同时，与其使用csv.reader，跳过第一行，用无意义的数字来引用列，不如使用^{}：

with open('constructs-to-make.csv', 'rU') as constructs:
    primer_list = []
    def get_strategy(row):
        return row["Strategy"]
    for group in itertools.groupby(csv.DictReader(constructs), key=get_strategy):
        # same as before, but with
        # ... row["Construct"] instead of row[0]
        # ... row["Strategy"] instead of row[1]
        # ... row["Name"] instead of row[2]

网友

2楼 · 编辑于 2024-04-27 14:24:28

只是一些关于python的通用编码帮助。如果你还没读过PEP8，就读吧。在

为了保持清晰的代码，可以将变量分配给记录/行中引用的字段。在

对于引用的任何字段，我将添加如下内容：

construct_idx = 0

另外，我建议使用字符串格式，这样更干净。在

所以：

^{pr2}$

而不是：

print('Current construct number is: #' + row[0] + ' on row ' + str(counter) + ', which is a Gibson assembly')

如果您正在创建一个csv reader对象，那么将它的变量名“*\u list”设置为可能缺少前导。称之为“*\u reader”更直观。在

construct_reader = csv.reader(constructs, delimiter=',')

而不是：

construct_list = csv.reader(constructs, delimiter=',')

相关问题更多 >

编程相关推荐

热门问题

热门文章