在预训练的手套字嵌入中，如何处理看不见的字以避免键错误？ - 问答 - Python中文网

在预训练的手套字嵌入中，如何处理看不见的字以避免键错误？

2024-06-08 23:40:00 发布

您现在位置：Python中文网/ 问答频道 /正文

男 | 程序猿一只，喜欢编程写python代码。

我想从预先训练的手套嵌入中提取特征。但我在某些词上犯了错误。这是单词token的列表。在

words1=['nuclear','described', 'according', 'called','physics', 'account','interesting','holes','theoretical','like','space','radiation','property','impulsed','darkfield']

我从“冲动的”、“黑暗的”单词中得到了Keyerror，因为这些可能是看不见的单词。我怎样才能避免这个错误呢。在

以下是我的完整代码：

^{pr2}$

“脉冲”字的错误消息

有没有办法跳过这些看不见的词？。在

Tags： token 列表错误 account 特征单词 holes nuclear

1条回答

网友

1楼 · 发布于 2024-06-08 23:40:00

我建议如下

指定给某个唯一向量的所有缺失单词（比如全部为零）
找到与之相似的单词并使用它们的嵌入：
- 尝试单词的ngrams（前缀或suffux）并检查它是否在vocab中
- 用词干检查单词是否在人声中
最简单的解决方案：使用快速文本。它从子词n-gram中组合词向量，从而允许它处理词汇表外的单词。在

相关问题更多 >

编程相关推荐

热门问题

热门文章