如何通过标点符号拆分CSV内容

name,word Oliver,"water,surf,windsurf" Tom,"football, striker, ball" Anna,"mountain;wind;sun" Sara,"basketball; nba; ball" Mark,"informatic/web3.0/e-learning" Christian,"doctor - medicine" Sergi,"runner . athletics"

name,word Oliver,water Oliver,surf Oliver,windsurf Tom,football Tom,stricker Tom,ball Anna,mountain Anna,wind Anna,sun Sara,basketball Sara,nba Sara,ball Mark,informatic Mark,web3.0 Mark,e-learning Christian,doctor Christian,medicine Sergi,runner Sergi,athletics

def splitter(df): df['word'] = df['word'].str.split(",") df = df.explode("word") df['word'] = df['word'].str.split(", ") df = df.explode("word") df['word'] = df['word'].str.split(" , ") df = df.explode("word") df['word'] = df['word'].str.split("- ") df = df.explode("word") df['word'] = df['word'].str.split(" -") df = df.explode("word") df['word'] = df['word'].str.split("\. ") df = df.explode("word") df['word'] = df['word'].str.split(";") df = df.explode("word") df['word'] = df['word'].str.split("; ") df = df.explode("word") df['word'] = df['word'].str.split(" ;") df = df.explode("word") df['word'] = df['word'].str.split(" ; ") df = df.explode("word") df['word'] = df['word'].str.split("/ ") df = df.explode("word") return df

name,word Oliver,water Oliver,surf Oliver,windsurf Tom,football Tom, stricker Tom, ball Anna,mountain Anna,wind Anna,sun Sara,basketball Sara, nba Sara, ball Mark,informatic Mark,web3.0 Mark,e-learning Christian,doctor Christian, medicine Sergi,runner Sergi, athletics

2条回答

网友

1楼 · 编辑于 2024-05-15 06:08:57

我对熊猫了解不多，但下面的代码可能对您有所帮助

import re

# [name,word]
data = [["Oliver", "water,surf,windsurf"],
        ["Tom", "football, striker, ball"],
        ["Anna", "mountain;wind;sun"],
        ["Sara", "basketball; nba; ball"],
        ["Mark", "informatic/web3.0/e-learning"],
        ["Christian", "doctor - medicine"],
        ["Sergi", "runner . athletics"]]

result = []

for item in data:
    words = re.split(r'\s*;\s*|\s*,\s*|/|\s+-\s+|\s+.\s+', item[1])
    result.extend([(item[0], w) for w in words])

您可以使用re模块拆分单词。然后在元组列表中得到结果

网友

2楼 · 编辑于 2024-05-15 06:08:57

简单地

df['word'] = df['word'].str.strip()

它应该删除文本两侧的所有spaces、tabs和new lines

顺便说一句：

可能您甚至可以在不使用split("; ")、split(" ;")等的情况下使用split(";")，因为strip()将删除这些空格

如果您想使用像split(";")、split("; ")、split(" ;")、split(" ; ")这样的变体，那么您应该从最长的split(" ; ")开始，然后使用较短的split("; ")、split(" ;")，最后使用最短的split(";")，这样可能可以删除空格

您甚至可以尝试只使用一个split('[;,-./]')而不是所有的split()

df = df['word'].str.split('[;,-./]').explode().str.strip()

最终，您可以使用|作为OR

编辑：

在代码中直接使用数据的最小工作示例-因此每个人都可以对其进行测试

import pandas as pd
import io

text = '''name,word
Oliver,"water,surf,windsurf"
Tom,"football, striker, ball"
Anna,"mountain;wind;sun"
Sara,"basketball; nba; ball"
Mark,"informatic/web3.0/e-learning"
Christian,"doctor - medicine"
Sergi,"runner . athletics"'''

# text to dataframe
df = pd.read_csv(io.StringIO(text))

df['word'] = df['word'].str.split('[;,/]|\. |- | -')
df = df.explode('word')
df['word'] = df['word'].str.strip()

# dataframe to text
output = io.StringIO()
df.to_csv(output, index=False)
output.seek(0)
text = output.read() 

print(text)

结果:

name,word
Oliver,water
Oliver,surf
Oliver,windsurf
Tom,football
Tom,striker
Tom,ball
Anna,mountain
Anna,wind
Anna,sun
Sara,basketball
Sara,nba
Sara,ball
Mark,informatic
Mark,web3.0
Mark,e-learning
Christian,doctor
Christian,medicine
Sergi,runner
Sergi,athletics

编辑：

没有strip()的情况也一样

我使用' ?'在chars;,/之后和char.之前获取可选的space

我还使用' - 'before '- '和' -'来查找最长的版本

df['word'] = df['word'].str.split('[;,/] ?| ?\. | - |- | -')
df = df.explode('word')

编辑：

使用替换将(data, science)保留为一个字符串而不拆分的示例

import pandas as pd
import io

text = '''name,word
Oliver,"water,surf,windsurf"
Tom,"football, striker, ball"
Anna,"mountain;wind;sun"
Sara,"basketball; nba; ball; (date1, time1)"
Mark,"informatic/web3.0/e-learning"
Christian,"doctor - medicine - (date2, time2) - date3, time3"
Sergi,"runner . athletics"'''

# text to dataframe
df = pd.read_csv(io.StringIO(text))


# Find all `(...)`
found = df['word'].str.findall(r'\(.*?\)')
print(found)

# Flatten it
found = sum(found, [])
print(found)

# Create dict to put pattern in place of `(...)`.
# Because later I will use `regex=True` so I have to use `\(...\)` instead of `(...)`
patterns = {f'\({value[1:-1]}\)':f'XXX{i}' for i, value in enumerate(found)}
print(patterns)

df['word'] = df['word'].replace(patterns, regex=True)

#  - nromal spliting  -


df['word'] = df['word'].str.split('[;,/]|\. |- | -')
df = df.explode('word')
df['word'] = df['word'].str.strip()

# Create dict to put later `(...)` in place of pattern.
patterns_back = {f'XXX{i}':value for i, value in enumerate(found)}
print(patterns_back)

df['word'] = df['word'].replace(patterns_back, regex=True)

# dataframe to text
output = io.StringIO()
df.to_csv(output, index=False)
output.seek(0)
text = output.read() 

print(text)

结果:

0                  []
1                  []
2                  []
3    [(date1, time1)]
4                  []
5    [(date2, time2)]
6                  []
Name: word, dtype: object

['(date1, time1)', '(date2, time2)']

{'\\(date1, time1\\)': 'XXX0', '\\(date2, time2\\)': 'XXX1'}

{'XXX0': '(date1, time1)', 'XXX1': '(date2, time2)'}

name,word
Oliver,water
Oliver,surf
Oliver,windsurf
Tom,football
Tom,striker
Tom,ball
Anna,mountain
Anna,wind
Anna,sun
Sara,basketball
Sara,nba
Sara,ball
Sara,"(date1, time1)"
Mark,informatic
Mark,web3.0
Mark,e-learning
Christian,doctor
Christian,medicine
Christian,"(date2, time2)"
Christian,date3
Christian,time3
Sergi,runner
Sergi,athletics

相关问题更多 >

编程相关推荐

热门问题

热门文章