我有一个DNA寡聚物的列表,它们有重复序列的分配。然而,我需要它们与使用它们的质粒的标识符配对
换句话说,我需要这个数据帧:
Oligo_sequence Plasmid
0 "ATG" "Plasmid A"
1 "ATG" "Plasmid B"
2 "CAG" "Plasmid C"
成为:
Oligo_sequence Plasmid
0 "ATG" ["Plasmid A","Plasmid B"]
1 "CAG" ["Plasmid C"]
我认为类似的函数可能会起作用。但我不知道如何识别重复的
for index, row in df.iterrows():
plasmidlist = [row[1]]
if duplicate == True: #Is their a dublicate function I can use?
plasmidlist.append(duplicaterow[1])
drop(dublicaterow)
df.at[row,'Plasmid']= plasmidlist
如果您的解析算法正常工作,我将使用字典结构来完成此任务。在Python中,您可以轻松检查列表中是否存在项:
您可以将^{} 与
.apply(list)
一起使用:印刷品:
将
groupby
和agg
与列表一起使用:输出:
相关问题 更多 >
编程相关推荐