Python pandas 从包含短语的单元格中提取带连字符的单词

1 投票

2 回答

1933 浏览

提问于 2025-04-18 03:07

我有一个数据表，里面包含了一些短语，我想从这个数据表中提取出只有连字符连接的复合词，然后把它们放到另一个数据表里。

df=pd.DataFrame({'Phrases': ['Trail 1 Yellow-Green','Kim Jong-il was here', 'President Barack Obama', 'methyl-butane', 'Derp da-derp derp', 'Pok-e-mon'],})

到目前为止，我的进展是这样的：

import pandas as pd

df=pd.DataFrame({'Phrases': ['Trail 1 Yellow-Green','Kim Jong-il was here', 'President Barack Obama', 'methyl-butane', 'Derp da-derp derp', 'Pok-e-mon'],})


new = df['Phrases'].str.extract("(?P<part1>.*?)-(?P<part2>.*)")

结果

>>> new
            part1        part2
0  Trail 1 Yellow        Green
1        Kim Jong  il was here
2             NaN          NaN
3          methyl       butane
4         Derp da    derp derp
5             Pok        e-mon

我想要的结果是只保留这些词，比如（注意，Pok-e-mon因为有两个连字符，所以显示为 Nan）：

>>> new
            part1        part2
0          Yellow        Green
1             Jong          il
2             NaN          NaN
3          methyl       butane
4              da         derp
5             NaN          NaN

数据处理数据提取数据表连字符复合词

2 个回答

根据你的描述，我看不出你第一行的 Nan, Nan 是从哪里来的。可能是你例子里的一个笔误吧？无论如何，这里有一个可能的解决方案。

import re

# returns words with at least one hyphen
def split_phrase(phrase):
    return re.findall('(\w+(?:-\w+)+)', phrase)

# get all words with hyphens
words_with_hyphens = sum(df.Phrases.apply(split_phrase).values)
# split all words into parts
split_words = [word.split('-') for word in words_with_hyphens]
# keep words with two parts only, else return (Nan, Nan)
new_data = [(ws[0], ws[1]) if len(ws) == 2 else (np.nan, np.nan) for ws in split_words]
# create the new DataFrame
pd.DataFrame(new_data, columns=['part1', 'part2'])

#  part1   | part2
#------------------
# 0 Yellow | Green
# 1 Jong   | il
# 2 methyl | butane
# 3 da     | derp
# 4 NaN    | NaN

回答于 2025-04-18 由 Python大师

分享举报

你可以使用这个正则表达式：

(?:[^-\w]|^)(?P<part1>[a-zA-Z]+)-(?P<part2>[a-zA-Z]+)(?:[^-\w]|$)

(?:               # non capturing group
    [^-\w]|^        # a non-hyphen or the beginning of the string
)
(?P<part1>
    [a-zA-Z]+     # at least a letter
)-(?P<part2>
    [a-zA-Z]+
)
(?:[^-\w]|$)        # either a non-hyphen character or the end of the string

你的第一个问题是，.这个符号没有限制，会把空格也算进去。[a-zA-Z]只会选择字母，所以它不会“跳”到下一个单词。
对于pok-e-mon这种情况，你需要检查一下，在你匹配的前后有没有连字符。

可以在这里查看示例

回答于 2025-04-18 由 Python大师

分享举报

Python pandas 从包含短语的单元格中提取带连字符的单词

2 个回答

撰写回答