BeautifulSoup.text方法返回不带分隔符的文本(\n、\r等)

2024-05-13 15:05:45 发布

您现在位置:Python中文网/ 问答频道 /正文

我试图解析来自俄罗斯最大歌词网站http://amalgama-lab.com的歌词,并将歌词(翻译和原始)保存到Vkontakte帐户的音频列表中(遗憾的是,amalgama没有任何API)

import urllib
from BeautifulSoup import BeautifulSoup
import vkontakte
vk = vkontakte.API(token=<SECRET_TOKEN>)
audios = vk.getAudios(count='2')
#{u'artist': u'The Beatles', u'url': u'http://cs4519.vkontakte.ru/u4665445/audio/4241af71a888.mp3', u'title': u'Yesterday', u'lyrics_id': u'2365986', u'duration': 130, u'aid': 166194990, u'owner_id': 173505924}
url = 'http://amalgama.mobi/songs/'
for i in audios:
    print i['artist']
    if i['artist'].startswith('The '):
        url += i['artist'][4:5] + '/' + i['artist'][4:].replace(' ', '_') + '/'     +i['title'].replace(' ', '_') + '.html'
    else:
        url += i['artist'][:1] + '/' + i['artist'].replace(' ', '_') + '/' +i['title'].replace(' ', '_') + '.html'
    url = url.lower()
    page = urllib.urlopen(url)
    soup = BeautifulSoup(page.read(), fromEncoding="utf-8")
    texts = soup.findAll('ol', )
    if len(texts) != 0:
        en = texts[0].text #this!
        ru = texts[1].text #this!
        vk.get('audio.edit', aid=i['aid'], oid = i['owner_id'], artist=i['artist'], title = i['title'], text = ru, no_search = 0)

但是.text方法返回字符串而不返回任何分隔符:

“昨天,我所有的烦恼似乎都离我太远了,看起来好像它们都在这里等待着我,我相信昨天突然,我不再是以前的一半了,有一个阴影笼罩着我,昨天突然来了[合唱:]为什么她要走我不知道,她不会说我说错了什么,现在我渴望昨天,爱是这样的一个简单的游戏现在我需要一个藏身的地方,我相信

这是主要问题。接下来,有什么更好的方法来保存这样的歌词:

歌词第1行(原件)

歌词第1行(翻译)

歌词第2行(原文)

歌词第2行(翻译)

歌词第三行(原文)

歌词第三行(翻译)

。。。

是吗?我只得到混乱的代码。谢谢


Tags: textimportidhttpurltitleartistru
3条回答

尝试^{}方法的separator参数:

from bs4 import BeautifulSoup
html = '''<p> Hi. This is a simple example.<br>Yet poweful one. <p>'''
soup = Beautifulsoup(html)
soup.get_text()  
# Output: u' Hi. This is a simple example.Yet poweful one. '
soup.get_text(separator=' ')  
# Output: u' Hi. This is a simple example. Yet poweful one. '

你可以这样做:

soup = BeautifulSoup(html)
ols = soup.findAll('ol') # for the two languages

for ol in ols: 
    ps = ol.findAll('p')
    for p in ps:
        for item in p.contents:
            if str(item)!='<br />':
                print str(item)

相关问题 更多 >