Python正则表达式匹配新闻标题

2024-05-15 23:44:34 发布

您现在位置:Python中文网/ 问答频道 /正文

我想匹配所有可能成为新闻标题的句子

目前我有这样的想法:

  1. ^([A-Z][a-z]*\b\s*)+$

Example: Audi Expects To Increase Vehicle Purchases

  1. ^([A-Z0-9]*\b\s*)+$

Example: AUDI EXPECTS TO INCREASE VEHICLE PURCHASES 2 TIMES BY 2021

  1. ^([A-Za-z0-9]*\b\s*)+$

Example 1: Audi Expects to Increase Vehicle Purchases 2 times by 2020

Example 2: AUDI expects to increase vehicle purchases 2 times by 2020

注意:当以下句子以点结尾时,所有这些正则表达式都不会检测到以下句子(标题后面的句子)

示例:

Increase Vehicle Purchases 2 times by 2020

Here are some more details about Audis plan. CEO of Audi, Rupert Stadler, said that ... etc

有人对如何匹配可能的标题有更多好的regex建议吗


Tags: to标题byexample句子expectstimesvehicle
1条回答
网友
1楼 · 发布于 2024-05-15 23:44:34

你的数据是什么格式的? 它是一个长的连续字符串、html/xml数据还是句子列表

正则表达式的结尾没有标点“()+$”。如果它是一个长字符串,这里的$可能是一个问题。 您可以用换行符或其他类似的指示符(\r\n)等来结束regex

相关问题 更多 >