Python，正则表达式的问题。想找些漫画书的标题

import re text = "876876 PUBLISHER title #345 jklhljhljh" texpat = re.compile(r"PUBLISHER(.*?)#") thename = pattern.search(text) name = thename.group() numpat = re.compile(r"#(\d+)") num = numpat.search(text) print(name) print(num.group())

3条回答

网友

1楼 · 编辑于 2024-04-24 05:32:39

import re

text = "876876 PUBLISHER   title #345 jklhljhljh"

texpat = re.compile(r"PUBLISHER\s*(\S.*?)#")
thename = texpat.search(text)
name = thename.groups()[0]

numpat = re.compile(r"#(\d+)")
num = numpat.search(text)

print(name)
print(num.groups()[0])

输出为：

title 
345

网友

2楼 · 编辑于 2024-04-24 05:32:39

我将在这里使用^{}来帮助进行html解析：

import urllib2
from bs4 import BeautifulSoup

url = "http://www.comiclistdatabase.com/doku.php?id=comiclist_for_09_10_2014"

soup = BeautifulSoup(urllib2.urlopen(url))

for row in soup.select('div.table tr')[1:]:
    publisher = row.find('td', class_='col1').text
    title = row.find('td', class_='col2').text
    print {'publisher': publisher, 'title': title}

印刷品：

{'publisher': u'AMIGO COMICS', 'title': u'Ghost Wolf #4 (Of 4)$3.99 '}
{'publisher': u'AMIGO COMICS', 'title': u'Rogues Volume 2 Cold Ship #4 (Of 5)'}
{'publisher': u'ARCHIE COMIC PUBLICATIONS', 'title': u'Archie Giant Comics Digest TP'}
{'publisher': u'ARCHIE COMIC PUBLICATIONS', 'title': u'Betty And Veronica #272 (Dan Parent Regular Cover)'}
...

然后，你可以从标题抓取数字，如果你想提取它了。我使用的是#(\d+)正则表达式，它匹配一个hashtag，后跟一个或多个数字，括号有助于capture数字：

import re
import urllib2

from bs4 import BeautifulSoup

url = "http://www.comiclistdatabase.com/doku.php?id=comiclist_for_09_10_2014"

soup = BeautifulSoup(urllib2.urlopen(url))

NUMBER_RE = re.compile('#(\d+)')
for row in soup.select('div.table tr')[1:]:
    publisher = row.find('td', class_='col1').text
    title = row.find('td', class_='col2').text
    match = NUMBER_RE.search(title)
    number = match.group(1) if match else 'n/a'

    print {'publisher': publisher, 'title': title, 'number': number}

印刷品：

{'publisher': u'AMIGO COMICS', 'number': u'4', 'title': u'Ghost Wolf #4 (Of 4)$3.99 '}
{'publisher': u'AMIGO COMICS', 'number': u'4', 'title': u'Rogues Volume 2 Cold Ship #4 (Of 5)'}
{'publisher': u'ARCHIE COMIC PUBLICATIONS', 'number': 'n/a', 'title': u'Archie Giant Comics Digest TP'}
...

网友

3楼 · 编辑于 2024-04-24 05:32:39

将此匹配以捕获标题（在第一组中）和数字（在第二组中），并使用一个表达式：

PUBLISHER\s*(.+?)\s*#(\d+)

Demo

然后需要使用数组^{}来获取捕获组，而不是整个匹配：

import re

text = "876876 PUBLISHER   title #345 jklhljhljh"
pattern = re.compile(r"PUBLISHER\s*(.+?)\s*#(\d+)")

results = pattern.search(text)

print(results.group(1))
print(results.group(2))

输出：

title
345

相关问题更多 >

编程相关推荐

热门问题

热门文章