FastText将希伯来语文本转换为不可读的编码有什么方法可以转换回来吗？

2024-04-26 04:03:57 发布

男 | 程序猿一只，喜欢编程写python代码。

注意： 后来发现.txt文件本身已经以不可读的格式编码…有没有办法以可读的格式读取.txt文件？你知道吗

“b”b”b”b”b”b”b”b”b”b”b”b”b”b”b”b”b”b”b”b”b”b”b”b”b”b”b”b”b”b“\xd7\x7\x7\x7\x7\x7\x7\x7\xx7\x90&；\x7\x7\xx7\x7\x7\x7\x7\xx7\xx7\xx7\xx7\x7\x7\x7\x7\x7\x7\x7\x7\x7\x7\x7\x7\x7\x7\x7\x7\x7\x7\x7\x7\x7\x7\x7\x7\x7\x7\x7\x7\x7\x7\x7\x7\x7\x7\x7\x7\xa9\xd7\x95\xd7\xaa\xd7\x9e\xd7\xa4\xd7\x9c\xd7\x92\xd7\x94\xd7\xa9\xd7\x99&；\xd7\x9c\xd7\x98\xd7\x95\xd7\x9f\xd7\x93\xd7\xa6\xd7\x9e\xd7\x91\xd7\xa8'

我正在尝试使用FastText为希伯来语文本创建单词嵌入。看起来FastText会自动将文本转换为不同的（不可读的）字符编码。有人知道为什么会发生这种情况，以及如何取消转换吗？你知道吗

我在Windows计算机上使用python3.5。我试着用UTF-8编码读取矢量化的单词，但它仍然以不可读的格式出现。你知道吗

model = fasttext.cbow('your_file.txt', 'model')
model.words # list of words in dictionary

向量是这样产生的：

{'': <gensim.models.keyedvectors.Vocab at 0x1ca3f6cc208>,
 '8\\xd7\\x95\\xd7\\xa0\\xd7\\x99\\xd7\\x94': <gensim.models.keyedvectors.Vocab at 0x1ca3b2fbda0>,
 '2.199': <gensim.models.keyedvectors.Vocab at 0x1ca3aadf470>,
 '42381': <gensim.models.keyedvectors.Vocab at 0x1ca3b348160>,
 '7648': <gensim.models.keyedvectors.Vocab at 0x1ca3b0b7208>,
 '1.9841': <gensim.models.keyedvectors.Vocab at 0x1ca3afd8080>,
 '7\\x91\\xd7\\x90"\\xd7\\x90': <gensim.models.keyedvectors.Vocab at 0x1ca3b313e80>,
 "xa0\\xd7\\x92'\\xd7\\x99&\\xd7\\x9e\\xd7\\x99\\xd7\\x9f": <gensim.models.keyedvectors.Vocab at 0x1ca3ab7b7f0>,
 '9e\\xd7\\x90\\xd7\\x9c': <gensim.models.keyedvectors.Vocab at 0x1ca3ad39748>,
 "a4\\xd7\\x99'": <gensim.models.keyedvectors.Vocab at 0x1ca3a8e9b38>,
 '\\x90\\xd7\\x95': <gensim.models.keyedvectors.Vocab at 0x1ca3ad7fe48>,
 '3501': <gensim.models.keyedvectors.Vocab at 0x1ca3aa1fbe0>,
 '7214': <gensim.models.keyedvectors.Vocab at 0x1ca3a798cf8>,
 '87195': <gensim.models.keyedvectors.Vocab at 0x1ca3aab47b8>,

Tags： txt 编码 models 格式 at vocab gensim x99

0条回答

目前没有回答

FastText将希伯来语文本转换为不可读的编码有什么方法可以转换回来吗？

相关问题更多 >

编程相关推荐

热门问题

热门文章

FastText将希伯来语文本转换为不可读的编码有什么方法可以转换回来吗？

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >