输入通用句子编码器的数据是否应该规范化?

2024-06-10 00:55:14 发布

您现在位置:Python中文网/ 问答频道 /正文

我目前正在为我的理学士学位使用Tensor Flow的通用句子编码器(https://arxiv.org/pdf/1803.11175.pdf)。我在论文中研究了摘录摘要技术。 在这个任务的绝大多数技术中(比如https://www.aaai.org/ocs/index.php/IJCAI/IJCAI15/paper/view/11225/10855),句子首先是规范化的(小写、停止单词删除、语言化),但是我找不到一个提示,是否应该首先规范输入用法的句子。是这样吗?这有什么关系吗


Tags: httpsorgindexpdfwwwarxiv编码器flow
1条回答
网友
1楼 · 发布于 2024-06-10 00:55:14

选择实际上取决于设计的应用

关于停止字删除和柠檬化:这些操作通常会从文本中删除一些内容,因此,它可以删除信息。但是,如果它没有产生影响,那么您可以删除它。(最好两种都尝试一下。一般来说,性能差异不应该太大)

小写取决于您使用的预训练模型(例如,在BERT中,您有bert-base-uncasedbert-base-cased)和应用程序的选择。一种简单的验证方法是,将文本输入到USE模型中,获取其句子嵌入,然后将相同的输入文本小写,获取其句子嵌入。如果它们相同,则表示您的模型不区分大小写。但是,如果它提供不同的嵌入,那么它是区分大小写的。(通过运行here提供的程序,似乎用法区分大小写)。下套管的选择同样取决于应用

相关问题 更多 >