从提取的元素中移除<br>

2024-04-24 08:04:27 发布

您现在位置:Python中文网/ 问答频道 /正文

我试图从中提取数据的网站是: http://www.genome.jp/dbget-bin/www_bget?ecs:ECs0037

我正在尝试提取“nt序列”:

try:
    geneSeq = browser.find_element_by_xpath("html/body/div[1]/table/tbody/tr/td/table[2]/tbody/tr/td[1]/form/table/tbody/tr/td/table/tbody/tr[11]/td").text

except:
    geneSeq = "file\nnot found" 
geneSeq = geneSeq[geneSeq.find('\n')+1:]

我删除了输入的第一行,因为我不需要它,但是我在代码中有br标记,这些标记注册在文件中,但是python看不到它们。我尝试过.isspace(),它返回false,因此.rsplit()不起作用。不幸的是,当我尝试使用f.write将序列写入文件时,这些行仍然出现。在

有没有办法去掉br标签?在


Tags: 文件数据标记brhttpgenome网站www
3条回答

它将用python打印整个html内容:

import urllib2

req = urllib2.Request('https://www.google.com')
response = urllib2.urlopen(req)
the_page = response.read()

感谢您给出的所有答案,因为python并没有将soace视为空白,我刚刚结束了一个循环,检查似乎有效的字符:

noSpace =""
for char in geneSeq:
    if char.isalpha():
        noSpace = noSpace + char

假设您的html字符串名为html,请执行以下操作:

html = html.replace('<br>', '')

相关问题 更多 >