我试图从中提取数据的网站是: http://www.genome.jp/dbget-bin/www_bget?ecs:ECs0037
我正在尝试提取“nt序列”:
try:
geneSeq = browser.find_element_by_xpath("html/body/div[1]/table/tbody/tr/td/table[2]/tbody/tr/td[1]/form/table/tbody/tr/td/table/tbody/tr[11]/td").text
except:
geneSeq = "file\nnot found"
geneSeq = geneSeq[geneSeq.find('\n')+1:]
我删除了输入的第一行,因为我不需要它,但是我在代码中有br标记,这些标记注册在文件中,但是python看不到它们。我尝试过.isspace(),它返回false,因此.rsplit()不起作用。不幸的是,当我尝试使用f.write将序列写入文件时,这些行仍然出现。在
有没有办法去掉br标签?在
它将用python打印整个html内容:
感谢您给出的所有答案,因为python并没有将soace视为空白,我刚刚结束了一个循环,检查似乎有效的字符:
假设您的html字符串名为
html
,请执行以下操作:html = html.replace('<br>', '')
相关问题 更多 >
编程相关推荐