字典到数据帧存在/absen

3条回答

网友

1楼 · 编辑于 2024-05-23 19:02:28

你应该用Python来做这个：

my_dict = {
            'A': ['arylpolyene', 'hserlactone', 'hserlactone', 'nrps', 'siderophore', 't1pks-nrps', 'terpene', 'thiopeptide', 'transatpks-nrps'],
            'B': ['hserlactone', 'hserlactone-arylpolyene', 'nrps', 'siderophore', 'thiopeptide'],
            'C': ['nrps', 'nrps', 'nrps', 'siderophore', 't1pks-nrps', 't1pks-nrps'],
            'D': ['nrps', 'siderophore', 't1pks-nrps']
            }

rows_list=list(my_dict.keys())
values=list(my_dict.values())
rows_size=len(rows_list)

columns_list = []

for sublist in values:
    for item in sublist:
        if item not in columns_list:
            columns_list.append(item)

columns_size = len(columns_list)

#initialize adjacent matrix
print('Initial adjacent matrix')
adjacent = [ [0]*columns_size for i in range(rows_size) ]
for row in adjacent:
    print(row)

for key, value in my_dict.items():
    for v in value:
        adjacent[rows_list.index(key)][columns_list.index(v)] += 1

print('-'*50)
print('Final adjacent matrix')
for row in adjacent:
    print(row)

在第一个循环for sublist in values:我创建了一个列表，其中包含您想要的值作为没有重复项的列。在

在adjacent = [ [0]*columns_size for i in range(rows_size) ]中，我创建了一个列表，其中的元素数与字典键的数目相同。这些元素中的每一个都是一个列表，其中的元素数与列值的数目相同。在

我试着尽可能简单地做，如果有什么你搞不懂的，告诉我：）

网友

2楼 · 编辑于 2024-05-23 19:02:28

也许你在找这样的东西：

val = {'A': ['arylpolyene', 'hserlactone', 'hserlactone', 'nrps', 'siderophore', 't1pks-nrps', 'terpene', 'thiopeptide', 'transatpks-nrps'],
       'B': ['hserlactone', 'hserlactone-arylpolyene', 'nrps', 'siderophore', 'thiopeptide'],
       'C': ['nrps', 'nrps', 'nrps', 'siderophore', 't1pks-nrps', 't1pks-nrps'],
       'D': ['nrps', 'siderophore', 't1pks-nrps']}
all_val = []
for k in val:
    for v in val[k]:
        all_val.append((k,v))

df = pd.DataFrame(all_val,columns=['key','val']).set_index('key')
df_count = df.pivot_table(index='key',columns='val',aggfunc=len)

输出：

^{pr2}$

网友

3楼 · 编辑于 2024-05-23 19:02:28

将^{}与dictionary comprehension一起使用并分配给DataFrame：

from collections import Counter

df = pd.DataFrame({k:Counter(v) for k, v in d.items()}).T.fillna(0).astype(int)
print (df)

   arylpolyene  hserlactone  hserlactone-arylpolyene  nrps  siderophore  \
A            1            2                        0     1            1   
B            0            1                        1     1            1   
C            0            0                        0     3            1   
D            0            0                        0     1            1   

   t1pks-nrps  terpene  thiopeptide  transatpks-nrps  
A           1        1            1                1  
B           0        0            1                0  
C           2        0            0                0  
D           1        0            0                0

编辑：

对于指示符值，使用^{}：

^{pr2}$

from sklearn.preprocessing import MultiLabelBinarizer

mlb = MultiLabelBinarizer()
df = pd.DataFrame(mlb.fit_transform(d.values()),columns=mlb.classes_, index=d.keys())
print (df)
   arylpolyene  hserlactone  hserlactone-arylpolyene  nrps  siderophore  \
A            1            1                        0     1            1   
B            0            1                        1     1            1   
C            0            0                        0     1            1   
D            0            0                        0     1            1   

   t1pks-nrps  terpene  thiopeptide  transatpks-nrps  
A           1        1            1                1  
B           0        0            1                0  
C           1        0            0                0  
D           1        0            0                0

相关问题更多 >

编程相关推荐

热门问题

热门文章

字典到数据帧存在/absen

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >