我想在烹饪食谱上进行一些自然语言处理,特别是配料(也许稍后再准备)。基本上,我希望创建我自己的一套POS标签,以帮助我确定成分线的含义。在
例如,如果其中一种成分是: 3/4杯(轻包装)平叶欧芹叶,分瓣
我想用标签来表达所列出的成分和数量,通常是一个数字后跟一些计量单位。例如:
3\NUM-QTY/\FRACTION4\NUM-QTY cup\N-MEAS(轻包装\VD)[平叶\ADJ欧芹\N]\配料叶\N,分开\VD
我找到的标签here。在
我对一些事情不确定:
我觉得这种语言处理是如此的具体,以至于在一个合适的集合上训练一个标记员是有益的,但是我不确定如何继续。在
谢谢!在
使用模式.搜索图书馆。在
python模式库支持许多标记[1],包括基数标记(CD)。在
一旦您标记了基数,分数就是“cardinal/cardinal”或类似“cardinal cardinal/cardinal”的内容。在
关于数量,你应该建立一个烹饪量的分类法。python模式库还支持lemmatization[2]。在
我想用模式.搜索[2] 您可以构建一个适合您的数据的约束,并使用它对文本进行模式搜索。在
[1]http://www.clips.ua.ac.be/pages/mbsp-tags [2]http://www.clips.ua.ac.be/pages/pattern-search在
相关问题 更多 >
编程相关推荐