试图使预训练的BERT适应另一个句子语义分离的用例

2024-04-20 05:12:27 发布

您现在位置:Python中文网/ 问答频道 /正文

我使用huggingface BERT进行句子分类,结果非常好,但现在我想将其应用到另一个用例中。下面是我心目中的数据集类型(不确切)

 set_df.head()
    sentence                                subject                   object
0   my big red dog has a big fat bone       my big red dog          big fat bone
1   The Queen of Spades lives in a Castle   The Queen of spades     lives in a castle

我有一个包含这三列的序列数据集,我希望它能够将测试语句平分为其组成部分。我已经研究了伯特不同的预训练模型,但是我没有得到任何成功。我用错工具了吗


Tags: ofthe数据inmyredfat句子
2条回答

我认为更好的问题是如何完善任务框架:如果事实上,组成部分不重叠,那么^{}可能就是这样。本质上,您正试图预测每个单独标记的标签,在您的例子中,可能是no labelsubjectobject

这类任务的一个很好的例子是命名实体识别(NER),它通常以类似的方式构建。具体地说,HuggingFace的transformer存储库为您提供了一个very extensive example,可以作为如何格式化输入以及如何正确培训的灵感

因此,我通过将数据修改为CONLL格式解决了这个问题,其中每一行只包含一个单词,并带有匹配的标签subject\object。 我的主题 大课题 红色苏伊特 ... ....

瞧,这成了一个常规的实体识别问题,需要使用BERT进行标记识别来解决。作为一个额外的建议,我让它与罗伯塔一起工作,但我需要经历一个复杂的去标记化过程

相关问题 更多 >