如何将一个字母和点组合成一行

Word Tag 0 bentuk A 1 fisik B 2 masyarakat C 3 serta D 4 kebudayaan E 5 yang F 6 dihasilkan G 7 . H 8 ; I 9 William O 10 A O 11 . B 12 Haviland X

0 bentuk A 1 fisik B 2 masyarakat C 3 serta D 4 kebudayaan E 5 yang F 6 dihasilkan G 7 . H 8 ; I 9 William O 10 A. O 11 Haviland X

0 bentuk A 1 fisik B 2 masyarakat C 3 serta D 4 A. O 5 kebudayaan E 6 yang F 7 dihasilkan G 8 . H 9 ; I 10 William O 11 Haviland X

1条回答

网友

1楼 · 发布于 2024-05-15 00:13:35

我用匹配字母A-Z和a-z修改前面的解决方案，并在其后面加上.：

m1 = df['Word'].str.contains("^[A-Za-z]{1}$") & df['Word'].shift(-1).eq('.')
m2 = df['Word'].eq('.') & df['Word'].shift().str.contains("^[A-Za-z]{1}$")

m = m1 | m2
g = (~m).cumsum().where(m)

m5 = g.map(g.value_counts()) == 2
g1 = g.where(m5, np.arange(len(df)) + .5)

df1 = (df.groupby(g1, as_index=False)
          .agg({'Word': ''.join, 'Tag' :'first'}))
print(df1)
          Word Tag
0       bentuk   A
1        fisik   B
2   masyarakat   C
3        serta   D
4   kebudayaan   E
5         yang   F
6   dihasilkan   G
7            .   H
8            ;   I
9      William   O
10          A.   O
11    Haviland   X

编辑：在查找问题后，有累积值移位，默认排序为groupby，所以更改了顺序。解决方案是将sort=False参数添加到groupby：

df1 = (df.dropna()
        .groupby(g1, as_index=False, sort=False)
        .agg({'Word': ''.join, 'Tag' :'first'}))
print(df1.loc[4750:4770])
             Word       Tag
4750       dengan         O
4751  mempelajari         O
4752        aneka         O
4753        warna         O
4754            ,         O
4755       bentuk         O
4756        fisik         O
4757   masyarakat         O
4758        serta         O
4759   kebudayaan         O
4760         yang         O
4761   dihasilkan         O
4762            .         O
4763            ;         O
4764      William  B-PERSON
4765           A.  I-PERSON
4766     Haviland  I-PERSON
4767            :         O
4768  Antropologi         O
4769       adalah         O
4770        studi         O

相关问题更多 >

编程相关推荐

热门问题

热门文章