我试图爬网一个网站和解析板球记分板使用刮擦。除了接球的那场,我大部分时间都能做到。有几种方法可以找到文本,例如
这样做的目的是得到接球的外野手的名字,这意味着
到目前为止,我已经想出了以下正则表达式
(c\s)([A-Za-z]*)
(c & b)(\s[a-zA-Z]*)
当我在捕手中只有姓氏的时候,比如安德森,索迪,它们就起作用了,但是它们和全名不起作用。我需要在单个组中捕获完整的名称,以便在后期使用。你知道吗
我知道这些可能不是完美的,所以任何对现有的建议也欢迎
编辑 增加了一个特殊的情况下,名称前面是匕首符号。你知道吗
你要找的正则表达式:
首先有两个案例:
c
或c & b
然后要匹配尽可能多的字符,直到找到
b
或行尾下面是我使用python2.7得到的:
输出:
你可以选择:
在
Python
代码中:看看working on regex101.com。
您需要有较新的
regex
模块(pip install regex
)才能使此工作正常。你知道吗相关问题 更多 >
编程相关推荐