NTriples中的寓言符UTF8字符

2024-05-13 01:40:37 发布

您现在位置:Python中文网/ 问答频道 /正文

当我使用Allegrograph4.6PythonAPI时,我可以使用连接.addTriple()方法尝试添加以包含unicode字符(×)结尾的三元组:

conn.addTriple( ..., ..., '5 × 10**5' )

这不管用。我得到了一个错误:

UnicodeDecodeError: 'ascii' codec can't decode byte 0xc3 in position...

以下是完整的回溯:

Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
  File "/cygdrive/c/agraph-4.6-client-python/src2/franz/openrdf/repository/repositoryconnection.py", line 357, in addTriple
    self._convert_term_to_mini_term(obj), cxt)
  File "/cygdrive/c/agraph-4.6-client-python/src2/franz/openrdf/repository/repositoryconnection.py", line 235, in _convert_term_to_mini_term
    return self._to_ntriples(term)
  File "/cygdrive/c/agraph-4.6-client-python/src2/franz/openrdf/repository/repositoryconnection.py", line 367, in _to_ntriples
    else: return term.toNTriples();
  File "/cygdrive/c/agraph-4.6-client-python/src2/franz/openrdf/model/literal.py", line 182, in toNTriples
    sb.append(strings.encode_ntriple_string(self.getLabel()))
  File "/cygdrive/c/agraph-4.6-client-python/src2/franz/openrdf/util/strings.py", line 52, in encode_ntriple_string
    string = unicode(string)
UnicodeDecodeError: 'ascii' codec can't decode byte 0xc3 in position 18: ordinal not in range(128)

相反,我可以这样添加三元组:

conn.addTriple( ..., ..., u'5 × 10**5' )

这样我就不会出错了。在

但是如果我使用connection.addFile(filename, format=RDFFormat.NTRIPLES)加载包含一些UTF-8编码字符的ntriples文件,如果ntriples文件从Notepad++另存为ANSI编码,则会收到以下错误消息:

^{pr2}$

如果文件保存为UTF-8编码,则会收到以下错误消息:

400 MALFORMED DATA: N-Triples parser error while parsing
#<http request stream @ #x100486e8b2> at line 1 (last character was
#\): Subjects must be resources (i.e., URIs or blank nodes)
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
  File "/cygdrive/c/agraph-4.6-client-python/src2/franz/openrdf/repository/repositoryconnection.py", line 341, in addFile
    commitEvery=self.add_commit_size)
  File "/cygdrive/c/agraph-4.6-client-python/src2/franz/miniclient/repository.py", line 342, in loadFile
    nullRequest(self, "POST", "/statements?" + params, body, contentType=mime)
  File "/cygdrive/c/agraph-4.6-client-python/src2/franz/miniclient/request.py", line 198, in nullRequest
    if (status < 200 or status > 204): raise RequestError(status, body)
franz.miniclient.request.RequestError: Server returned 400: N-Triples parser error while parsing

但是,如果文件在记事本++中设置为ANSI编码,我可以进入并粘贴×字符,保存,然后文件加载良好。或者,如果在粘贴字符后将文件编码更改为UTF-8,则字符将更改为某种奇怪的xD7字符。如果文件被设置为UTF-8编码,并且我将×粘贴在那里,那么如果我将编码更改为ANSI,×将更改为×。在

当这个文件给我时,它有×应该在×的地方,当我试图在AllegroGraph中加载它时,我得到了第一个400个格式错误的数据错误,它在文件中实际出现的行(12764)失败,而不是仅仅在第一行。我假设第1行出现第二个400个格式错误的原因与Notepad++为UTF-8编码文件编写的头有关。所以很明显,如果我不想让AllegroGraph立即中断,我必须将一个文件保存为ANSI,但是必须有某种方法告诉AllegroGraph将×读为UTF-8字符。在

在文件中,三元组看起来像:

<...some subject URI...> <...some predicate URI...> "5 × 10**5" .


Tags: 文件inpyclient编码错误line字符
2条回答

使用编解码器模块。在

import codecs
f = codecs.open('file.txt','r','utf8')

这将打开强制utf8编码的文件

\xd7×的拉丁语1编码。在

×是如果您错误地将×解码为cp1252(通常是Windows的默认编解码器),如果它是用UTF-8编码的话,就会得到这样的结果。在

如果给定的文件显示×,请尝试将用于显示这些文件的编解码器更改为UTF-8。在


有关Python中Unicode的概述,请参见here。~多亏了丹妮斯。在


正如您从AllegroGraph support了解到的:

AllegroGraph can take unicode characters in nTriples using \uXXXX notation. Alternatively one can use RDFXML, which allows you to leave the unicode characters as they are.

相关问题 更多 >