输入通用句子编码器的数据是否应该规范化？

1条回答

网友

1楼 · 发布于 2024-06-10 00:55:14

选择实际上取决于设计的应用

关于停止字删除和柠檬化：这些操作通常会从文本中删除一些内容，因此，它可以删除信息。但是，如果它没有产生影响，那么您可以删除它。（最好两种都尝试一下。一般来说，性能差异不应该太大）

小写取决于您使用的预训练模型（例如，在BERT中，您有bert-base-uncased和bert-base-cased）和应用程序的选择。一种简单的验证方法是，将文本输入到USE模型中，获取其句子嵌入，然后将相同的输入文本小写，获取其句子嵌入。如果它们相同，则表示您的模型不区分大小写。但是，如果它提供不同的嵌入，那么它是区分大小写的。（通过运行here提供的程序，似乎用法区分大小写）。下套管的选择同样取决于应用

编程相关推荐

java JavaFX 2.2字体呈现有问题
java如何从html文本中获取img url
java Spring数据REST存储库404
java从jar文件复制目录
java Spring引导无法满足自定义JPA请求
hadoop将值从Java操作传递到Oozie工作流中的下一个Java操作
java如何修复“Android资源链接失败”？使用NavigationView和片段
c3p0数据源的java独立日志文件
java如何从BufferImage生成图像
java JDBC SQL SELECT查询和方法运行不正常

相关问题更多 >

编程相关推荐

热门问题

热门文章

输入通用句子编码器的数据是否应该规范化？

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >