Python - 将长地址列表转换为字符串列表并求交集

0 投票
3 回答
984 浏览
提问于 2025-04-18 05:16

我有两个非常长的文本文件(里面有成千上万的电子邮件地址,每行一个),我想找个办法来比较这两个文件,输出那些只在第一个文件或第二个文件中出现,但不同时在两个文件中的地址(就像集合理论中的 AUB/(A⋂B))。如果我能用包含字符串的列表作为输入,那就简单多了,像这样:

input1=['address1','address2',...,'addressn']

但是因为我的文本文件很长,而且每个地址都在不同的行上,我得手动把每个地址放在 '' 里。所以我尝试用一个字符串,把所有地址用空格分开,然后把它转换成一个字符串列表。这是我想到的办法:

import numpy as np
from StringIO import StringIO

def conv(data):
    array1=np.genfromtxt(StringIO(data),dtype="|S50")
    lista1=[]
    for el in array1:
        lista1.append(el)
    return lista1

input1='address1 address2 ... addressn'

当我调用这个函数时,得到的结果是:

>conv(input1)
>['address1', 'address2', 'addressn']

这个方法是可行的,但我遇到了一个问题:输入需要是横向的,所以我不能直接从文本文件复制地址并粘贴到字符串中,因为那样会变成:

input1="Davide
...:Michele
...:Giorgio
...:Paolo"

File "<ipython-input-4-6d70053fb94e>", line 1
  input1="Davide
             ^
SyntaxError: EOL while scanning string literal

我该如何解决这个问题呢?如果有任何改进代码的建议,我会非常感激。我对 StringIO 模块几乎一无所知,今天第一次接触它,我相信可以写出比我现在的程序更高效的代码。顺便说一下,这就是整个程序:

def scan(data1,data2): #Strings
    array1=np.genfromtxt(StringIO(data1),dtype="|S50")
    array2=np.genfromtxt(StringIO(data2),dtype="|S50")
    lista1=[]
    lista2=[]
    for el in array1:
        lista1.append(el)
    for el in array2:
        lista2.append(el) #lista1 and lista2 are lists containing strings
    num1,num2=len(lista1),len(lista2)
    shared=[]
    for el in lista1:
        if el in lista2:
            shared.append(el) #shared is the intersection of lista1 and lista2
    if len(shared)==0:
        print 'No shared elements'
        return lista1+lista2
    else:
        for el in shared:
            n1=lista1.count(el)
            for i in range(n1):
                lista1.remove(el) #Removes from lista1 the elements shared with lista2
            n2=lista2.count(el)   #as many times as they appear
            for j in range(n2):
                lista2.remove(el) #Removes from lista2 the elements shared with lista1
    result=lista1+lista2          #as many times as they appear
    print 'Addresses list 1:',num1
    print 'Addresses list 2:',num2
    print 'Useful Addresses:',len(list(set(result)))
    return (list(set(result)))

这是一个示例,展示它是如何工作的:

data1="Davide John Kate Mary Susan"
data2="John Alice Clara Kate John Alex"
scan(data1,data2)
>Addresses list 1: 5
>Addresses list 2: 6
>Useful Addresses: 6
>['Alex', 'Susan', 'Clara', 'Alice', 'Mary', 'Davide']

谢谢你的帮助 :)

3 个回答

0
shared =[]
for el in lista1:
    if el in lista2:
        shared.append(el) #shared is the intersection of lista1 and lista2

In [10]: lista1=[1,2,3,4,5,6,7,8,9]

In [11]: lista2=[1,2,3,10,11,12,13]

In [12]: lista1=set(lista1)

In [13]: shared = lista1.intersection(lista2) # same as your loop above

In [14]: shared
Out[14]: {1, 2, 3}
for el in shared:
    n1=lista1.count(el)
    for i in range(n1):
        lista1.remove(el) #Removes from lista1 the elements shared with lista2
    n2=lista2.count(el)   #as many times as they appear
    for j in range(n2):
        lista2.remove(el)
result=lista1+lista2

         lista1=set(lista1) 
In [15]: list(lista1.symmetric_difference(lista2))
Out[15]: [4, 5, 6, 7, 8, 9, 10, 11, 12, 13] # same as above.

如果你想要一个列表,只需要用 list(lista1.intersection(lista2)) 这个代码就可以了。

1

在@irh的回答基础上,你可以使用sets来找出两个集合的对称差异:也就是在list1和list2中存在,但不同时在两个集合里的元素。

list1 = ['address1', 'address2', 'address3']

list1 = ['address5', 'address4', 'address3']

result = list(set(list1) ^ set(list2))

>>> print result
['address1', 'address2', 'address4', 'address5']     #note result might be jumbled but that shouldn't matter
1

在多行字符串周围使用三重引号:

input1="""Davide
...:Michele
...:Giorgio
...:Paolo"""

这样的话,它们会通过换行符("\n")分开,所以你可以用 inpu1.split('\n') 把它变成一个列表。

使用集合对象后,你的操作就简单多了。要获取在 s1 中但不在 s2 中的元素,我们只需要用 s1 - s2。并集用 | 表示,交集用 & 表示,所以总的来说就是这样。

s1 = set(input1.split('\n'))
s2 = set(input2.split('\n'))
adresses_in_only_one_file = (s1 | s2) - (s1 & s2)

撰写回答