使用Python将日语翻译成英语
我正在用Python写一些脚本,目的是把两个系统连接起来。这个系统会扫描邮箱,寻找特定的主题,然后从邮件中提取信息。我想要找的一个元素是一个HTML链接,接着我用Curl把这个HTML代码写到一个文本文件里。
我想问的是,如果邮件里的文字是日文,Python有没有什么模块可以自动把这些文字转换成英文?还是说我需要先把它转换成字符串,再转成Unicode,然后再解码?
这里有个我看到的例子。当我用curl从网址抓取文本时:
USB Host Stack 処理において解放されたメモリを不正に使用している
当我用简单的re.match来抓取字符串并写入文件时,得到的是:
USB Host Stack æQtk0J0D0f0ã‰>eU0Œ0_0á0â0ê0’0Nckk0O(uW0f0D0‹0
我在用email模块抓取邮件时也得到了以下内容:
>>> emailMessage.get_payload()
USB Host Stack =E5=87=A6=E7=90=86=E3=81=AB=E3=81=8A=E3=81=84=E3=81=A6=E8=A7=
=A3=E6=94=BE=E3=81=95=E3=82=8C=E3=81=9F=E3=83=A1=E3=83=A2=E3=83=AA=E3=82=92=
=E4=B8=8D=E6=AD=A3=E3=81=AB=E4=BD=BF=E7=94=A8=E3=81=97=E3=81=A6=E3=81=84=E3=
=82=8B
所以,我真正想问的是,我需要采取哪些步骤才能正确地把这些内容转换成英文。我真的很想把那些日文字符转换成英文。
1 个回答
1
自然语言翻译是个很难解决的问题,正如其他人所说的那样。所以可以考虑把需要翻译的文字发送到一个翻译服务,比如谷歌翻译,它会帮你翻译(虽然翻译得不太好,但总比没有强)。然后它会把翻译结果发回来。
下面这个链接展示了一种方法:用Python脚本通过谷歌翻译翻译网址
在你让这个工作之前,应该先解决你的编码问题(比如unicode、uuencoding等),这样你在读取和写入文本时才能不让内容变坏。