从两列随机生成唯一组合
我有一个大文件,里面有两列数据,比如说:
pro1 lig1
pro2 lig2
pro3 lig3
pro4 lig1
.....
第二列是多余的。我想要生成新的随机组合,数量是原来的两倍,而且这些组合不能和给定的组合重复,比如:
pro1 lig2
pro1 lig4
pro2 lig1
pro2 lig3
pro3 lig4
pro3 lig2
pro4 lig2
pro4 lig3
.....
谢谢。
4 个回答
1
c = """pro1 lig1
pro2 lig2
pro3 lig3
pro4 lig4"""
lines = c.split("\n")
set_a = set()
set_b = set()
for line in lines:
left, right = line.split(" ")
set_a |= set([left])
set_b |= set([right])
import random
for left in sorted(list(set_a)):
rights = random.sample(set_b, 2)
for right in rights:
print left, right
输出
pro1 lig2
pro1 lig4
pro2 lig4
pro2 lig3
pro3 lig1
pro3 lig4
pro4 lig2
pro4 lig1
1
通过一些排序、过滤、链式操作和列表推导,你可以试试这个:
from itertools import chain
import random
random.seed(12345) # Only for fixing output, remove in productive code
words = [x.split() for x in """pro1 lig1
pro2 lig2
pro3 lig3
pro4 lig4""".split("\n")]
col1 = [w1 for w1,w2 in words]
col2 = [w2 for w1,w2 in words]
col1tocol2 = dict(words)
combinations = chain(*[
[(w1, w2) for w2 in
sorted(
filter(
lambda x: x != col1tocol2[w1],
col2),
key=lambda x: random.random())
[:2]]
for w1 in col1])
for w1,w2 in combinations:
print w1, w2
这样可以得到:
pro1 lig3
pro1 lig2
pro2 lig4
pro2 lig1
pro3 lig4
pro3 lig2
pro4 lig3
pro4 lig1
这里的关键是使用一个随机函数作为 sorted
的 key
参数。
3
如果你想要第一列中每个值都有正好两个结果,我会直接用一种简单粗暴的方法来处理不匹配的部分,可以用下面这样的代码:
import random
def gen_random_data(inputfile):
with open(inputfile, "r") as f:
column_a, column_b = zip(*(line.strip().split() for line in f))
for a, b in zip(column_a, column_b):
r = random.sample(column_b, 2)
while b in r: # resample if we hit a duplicate of the original pair
r = random.sample(column_b, 2)
yield a, r[0]
yield a, r[1]