Python数据帧从列表中删除句子编号

import pandas as pd import spacy nlp = spacy.load('en_core_web_sm') data = {'text': ['I am A. I am 30 years old. I live in NY.','I am B. I am 25 years old. I live in SD.','I am C. I am 30 years old. I live in TX.'], 'todel': [[1, 2], [1], [1, 2]]} df = pd.DataFrame(data) def get_sentences(text): text_clean = nlp(text) sentences = text_clean.sents sents_list = [] for sentence in sentences: sents_list.append(str(sentence)) return sents_list df['text'] = df['text'].apply(get_sentences) print(df)

text todel 0 [I am A., I am 30 years old., I live in NY.] [1, 2] 1 [I am B. I am 25 years old., I live in SD.] [1] 2 [I am C. I am 30 years old., I live in TX.] [1, 2]

2条回答

网友

1楼 · 编辑于 2024-05-15 15:47:55

试试这个：

import pandas as pd

data = {'text': ['I am A. I am 30 years old. I live in NY.','I am B. I am 25 years old. I live in SD.','I am C. I am 30 years old. I live in TX.'], 'todel': [[1, 2], [1], [1, 2]]}

df = pd.DataFrame(data)

def fun(sen, lst):
    return  ('.'.join(s for idx, s in enumerate(sen.split('.')) if idx+1 not in lst))

df['text'] = df.apply(lambda row : fun(row['text'],row['todel']), axis=1)

输出：

                                text   todel
0                      I live in NY.  [1, 2]
1   I am 25 years old. I live in SD.     [1]
2                      I live in TX.  [1, 2]

根据已编辑的问题进行编辑：

如果df['text']列出了不需要拆分的句子，您可以尝试以下方法：

data = {'text': [['I am A.', 'I am 30 years old.', 'I live in NY.'], 
                 ['I am B.', 'I am 25 years old.', 'I live in SD.'],
                 ['I am C.','I am 30 years old.',' I live in TX.']], 'todel': [[1, 2], [1], [1, 2]]}
df = pd.DataFrame(data)
#                                           text     todel
# 0   [I am A., I am 30 years old., I live in NY.]  [1, 2]
# 1   [I am B., I am 25 years old., I live in SD.]     [1]
# 2  [I am C., I am 30 years old.,  I live in TX.]  [1, 2]

def fun(sen, lst):
    return  [s for idx , s in enumerate(sen) if not idx+1 in lst]

df['text'] = df.apply(lambda row : fun(row['text'],row['todel']), axis=1)

print(df)

输出：

                                  text   todel
0                      [I live in NY.]  [1, 2]
1  [I am 25 years old., I live in SD.]     [1]
2                     [ I live in TX.]  [1, 2]

网友

2楼 · 编辑于 2024-05-15 15:47:55

根据@user1740577的回答：

def fun(sen, lst):
    return [i for j, i in enumerate(sen) if j not in lst]

df['text'] = df.apply(lambda row : fun(row['text'],row['todel']), axis=1)

根据空间索引生成所需结果：

                           text   todel
0                     [I am A.]  [1, 2]
1  [I am B. I am 25 years old.]     [1]
2  [I am C. I am 30 years old.]  [1, 2]

相关问题更多 >

编程相关推荐

热门问题

热门文章