Python使用Unicode参数请求URL

langs = {'japanese': 'ja', 'english': 'en'} def get_sound_file_for_text(text, download=False, lang='japanese'): r = StringIO() glang = langs[lang] text = text.replace('*', '') text = text.replace('/', '') text = text.replace('x', '') url = 'http://translate.google.com/translate_tts' if download: result = requests.get(url, params={'tl': glang, 'q': text}) r.write(result.content) r.seek(0) return r else: return url

# -*- coding: utf-8 -*- from StringIO import StringIO import urllib import requests __author__ = 'jacob' langs = {'japanese': 'ja', 'english': 'en'} def get_sound_file_for_text(text, download=False, lang='japanese'): r = StringIO() glang = langs[lang] text = text.replace('*', '') text = text.replace('/', '') text = text.replace('x', '') text = urllib.quote(text.encode('utf-8')) url = 'http://translate.google.com/translate_tts?tl=%(glang)s&q=%(text)s' % locals() print url if download: result = requests.get(url) r.write(result.content) r.seek(0) return r else: return url

3条回答

网友

1楼 · 编辑于 2024-05-13 18:30:27

将用户代理设置为Mozilla/5.0可以解决此问题。

from StringIO import StringIO
import urllib
import requests

__author__ = 'jacob'

langs = {'japanese': 'ja',
         'english': 'en'}

def get_sound_file_for_text(text, download=False, lang='japanese'):

    r = StringIO()
    glang = langs[lang]
    text = text.replace('*', '')
    text = text.replace('/', '')
    text = text.replace('x', '')
    url = 'http://translate.google.com/translate_tts'
    if download:
        result = requests.get(url, params={'tl': glang, 'q': text}, headers={'User-Agent': 'Mozilla/5.0'})
        r.write(result.content)
        r.seek(0)
        return r
    else:
        return url

网友

2楼 · 编辑于 2024-05-13 18:30:27

我以前做过这个小方法来帮助我进行UTF-8编码。我在向CSV打印西里尔文和中日韩文时遇到问题，这就成功了。

def assist(unicode_string):
    utf8 = unicode_string.encode('utf-8')
    read = utf8.decode('string_escape')

    return read   ## UTF-8 encoded string

另外，确保在.py的开头有这两行代码。

#!/usr/bin/python
# -*- coding: utf-8 -*-

第一行只是一个很好的python习惯，它指定在.py上使用哪个编译器（只有在机器上加载了多个python版本时才真正有用）。第二行指定python文件的编码。对此给出了一个稍长的答案here。

网友

3楼 · 编辑于 2024-05-13 18:30:27

用户代理可能是问题的一部分，但在本例中不是这样。translate_tts服务拒绝（使用HTTP 403）某些用户代理，例如以Python、curl、wget开头的任何用户代理，以及可能的其他用户代理。这就是为什么在使用urllib2.urlopen()时会看到HTTP 403响应-它将用户代理设置为Python-urllib/2.7（版本可能会有所不同）。

您发现将用户代理设置为Mozilla/5.0修复了该问题，但这可能会起作用，因为API可能假定基于用户代理的特定编码。

实际应该做的是用ie字段显式指定URL字符编码。您的URL请求应如下所示：

http://translate.google.com/translate_tts?ie=UTF-8&tl=ja&q=%E3%81%B2%E3%81%A8%E3%81%A4

注意ie=UTF-8，它显式地设置URL字符编码。规范确实声明了UTF-8是默认的，但看起来并不完全正确，因此您应该始终在请求中设置ie。

API支持汉字、平假名和片假名（可能是其他的？）。这些url都会产生“nihongo”，尽管为平假名输入而产生的音频与其他的略有不同。

import requests

one = u'\u3072\u3068\u3064'
kanji = u'\u65e5\u672c\u8a9e'
hiragana = u'\u306b\u307b\u3093\u3054'
katakana = u'\u30cb\u30db\u30f3\u30b4'
url = 'http://translate.google.com/translate_tts'

for text in one, kanji, hiragana, katakana:
    r = requests.get(url, params={'ie': 'UTF-8', 'tl': 'ja', 'q': text})
    print u"{} -> {}".format(text, r.url)
    open(u'/tmp/{}.mp3'.format(text), 'wb').write(r.content)

相关问题更多 >

编程相关推荐

热门问题

热门文章