在预训练的手套字嵌入中,如何处理看不见的字以避免键错误?

2024-06-08 23:40:00 发布

您现在位置:Python中文网/ 问答频道 /正文

我想从预先训练的手套嵌入中提取特征。但我在某些词上犯了错误。这是单词token的列表。在

words1=['nuclear','described', 'according', 'called','physics', 'account','interesting','holes','theoretical','like','space','radiation','property','impulsed','darkfield']

我从“冲动的”、“黑暗的”单词中得到了Keyerror,因为这些可能是看不见的单词。我怎样才能避免这个错误呢。在

以下是我的完整代码:

^{pr2}$

“脉冲”字的错误消息

enter image description here

有没有办法跳过这些看不见的词?。在


Tags: token列表错误account特征单词holesnuclear
1条回答
网友
1楼 · 发布于 2024-06-08 23:40:00

我建议如下

  • 指定给某个唯一向量的所有缺失单词(比如全部为零)
  • 找到与之相似的单词并使用它们的嵌入:
    • 尝试单词的ngrams(前缀或suffux)并检查它是否在vocab中
    • 用词干检查单词是否在人声中
  • 最简单的解决方案:使用快速文本。它从子词n-gram中组合词向量,从而允许它处理词汇表外的单词。在

相关问题 更多 >