使用正则表达式从CSV查找id

<html ########> <head> <META ########> <meta ########> </head> <body style="########"> <table style="########"> <tr style="########"> <td>########</td> </tr> <tr> <td> <########> <tr> <td>########</td> <td>########</td> </tr> <tr bgcolor="#########"> <td>########</td> <td>########</td> </tr> <tr> <td>########</td> <td>########</td> </tr> <tr bgcolor="#########"> <td>########</td> <td>F00Y009</td> </tr> <tr> <td>SHAPE</td> <td>Point</td> </tr> <tr bgcolor="######"> <td>########</td> <td>########</td> </tr> <tr> <td>########</td> <td>########</td> </tr> <tr bgcolor="#######"> <td>########</td> <td>#######</td> </tr> <tr> <td>########</td> <td>{########}</td> </tr> </table> </td> </tr> </table> </body> </html>

2条回答

网友

1楼 · 编辑于 2024-04-27 08:02:48

你可以在这里使用正则表达式

import re
re.findall(r"<td>(\S+)</td>", open('filename.csv').read())

（）->；用于分组，\S+匹配非空白字符的任何字符。这与\s相反。如果使用ASCII标志，则该标志相当于[^\t\n\r\f\v]

参考：https://docs.python.org/3/library/re.html

网友

2楼 · 编辑于 2024-04-27 08:02:48

很难说什么是匹配的，什么是不匹配的，因为（目前）关于这些问题的唯一示例是字符串F00Y009，并且（正如您将在下面看到的）匹配的内容很多。另外，我认为您实际上并不希望返回<td>部分，只希望返回ID

一旦你的正则表达式变得完美，试着

import pandas as pd
import re

pattern = r'<td>(\w+)</td>'

df = pd.read_csv(r'test_data.csv', encoding='utf-8-sig')

def find_ids(row):
    ids = re.findall(pattern, row)
    return ids

df['ID'] = [find_ids(row) for row in df['Description']]

df.head()

产出：

    Name    Description ID
0   Janet   <html ########>\n\n<head>\n\n<META ########>\n...   [F00Y009, SHAPE, Point]
1   John    <html ########>\n\n<head>\n\n<META ########>\n...   [F00Y009, SHAPE, Point]
2   Burt    <html ########>\n\n<head>\n\n<META ########>\n...   [F00Y009, SHAPE, Point]
3   Bob <html ########>\n\n<head>\n\n<META ########>\n...   [F00Y009, SHAPE, Point]

我认为您不需要“SHAPE”和“Point”，因此正则表达式可能需要调整，但上面的代码应该会有所帮助。如果更改pattern变量，只需交换分配给它的正则表达式字符串

相关问题更多 >

编程相关推荐

热门问题

热门文章