NLP:如何使用pythonltk从给定的文本中查找名称和数字

2024-04-26 05:49:48 发布

您现在位置:Python中文网/ 问答频道 /正文

我有不同的文本,我需要捕捉姓名和数字。在

下面是一些我需要处理的示例文本:

1.Claims 1-3, 9-12, and 18 are rejected under 35 U.S.C. 103(a) as being unpatentable over Olarig et al. (U.S. Patent No. 5,944,809) (“Olarig”) and Solomita (U.S. Patent No. 7,581,052).

2.Claims 16 is rejected under 35 U.S.C. 103(a) as being unpatentable over US-2005/0013154 Honda et al., and further in view of US-2003/0189860 Takeuchi et al., and further in view of US6883060 Hayama, and further in view of US-2004/0088473 Ogle.

我需要按照他们在文本中出现的顺序来捕捉名字和数字。在

对于1,列表应为:

list1 = [{'name':'Olarig et al','patent no':'5944809'},
         {'name':'Solomita','patent no':'7581052'}]

对于2,捕获列表应为:

^{pr2}$

从文本中获取列表需要哪些步骤?在


Tags: andofin文本view列表数字et
1条回答
网友
1楼 · 发布于 2024-04-26 05:49:48

这是一个实体识别问题。 我可能会首先为你想要识别的每个实体创建单独的解析器,然后从那里开始工作。在

例如:创建“Patent”标识符,从您的示例中看,您必须识别忽略案例“Patent No.xxxxxxx”或“USxxxxxxx”以及可能更多的格式。您将需要为这些创建正则表达式,或者训练分类器来识别它们(更困难,但可能更准确)。我个人建议从每个实体的regex解析器开始,然后继续测试直到您满意为止!在

相关问题 更多 >