用自定义标签手动标记训练集

2024-05-28 23:13:12 发布

您现在位置:Python中文网/ 问答频道 /正文

我想在烹饪食谱上进行一些自然语言处理,特别是配料(也许稍后再准备)。基本上,我希望创建我自己的一套POS标签,以帮助我确定成分线的含义。在

例如,如果其中一种成分是: 3/4杯(轻包装)平叶欧芹叶,分瓣

我想用标签来表达所列出的成分和数量,通常是一个数字后跟一些计量单位。例如:

3\NUM-QTY/\FRACTION4\NUM-QTY cup\N-MEAS(轻包装\VD)[平叶\ADJ欧芹\N]\配料叶\N,分开\VD

我找到的标签here。在

我对一些事情不确定:

  1. 我应该使用自定义标记,还是应该在使用预先存在的标记之后进行某种标记后处理?在
  2. 如果我真的使用自定义标签,那么最好的方法是让培训文本只通过一个成分列表,然后手工标记所有的东西吗?在

我觉得这种语言处理是如此的具体,以至于在一个合适的集合上训练一个标记员是有益的,但是我不确定如何继续。在

谢谢!在


Tags: 标记pos数量数字标签numqty成分
1条回答
网友
1楼 · 发布于 2024-05-28 23:13:12

使用模式.搜索图书馆。在

python模式库支持许多标记[1],包括基数标记(CD)。在

一旦您标记了基数,分数就是“cardinal/cardinal”或类似“cardinal cardinal/cardinal”的内容。在

关于数量,你应该建立一个烹饪量的分类法。python模式库还支持lemmatization[2]。在

我想用模式.搜索[2] 您可以构建一个适合您的数据的约束,并使用它对文本进行模式搜索。在

[1]http://www.clips.ua.ac.be/pages/mbsp-tags [2]http://www.clips.ua.ac.be/pages/pattern-search在

相关问题 更多 >

    热门问题