我使用huggingface BERT进行句子分类,结果非常好,但现在我想将其应用到另一个用例中。下面是我心目中的数据集类型(不确切)
set_df.head()
sentence subject object
0 my big red dog has a big fat bone my big red dog big fat bone
1 The Queen of Spades lives in a Castle The Queen of spades lives in a castle
我有一个包含这三列的序列数据集,我希望它能够将测试语句平分为其组成部分。我已经研究了伯特不同的预训练模型,但是我没有得到任何成功。我用错工具了吗
我认为更好的问题是如何完善任务框架:如果事实上,组成部分不重叠,那么^{} 可能就是这样。本质上,您正试图预测每个单独标记的标签,在您的例子中,可能是
no label
、subject
或object
这类任务的一个很好的例子是命名实体识别(NER),它通常以类似的方式构建。具体地说,HuggingFace的transformer存储库为您提供了一个very extensive example,可以作为如何格式化输入以及如何正确培训的灵感
因此,我通过将数据修改为CONLL格式解决了这个问题,其中每一行只包含一个单词,并带有匹配的标签subject\object。 我的主题 大课题 红色苏伊特 ... ....
瞧,这成了一个常规的实体识别问题,需要使用BERT进行标记识别来解决。作为一个额外的建议,我让它与罗伯塔一起工作,但我需要经历一个复杂的去标记化过程
相关问题 更多 >
编程相关推荐