我有一个脚本,将两个HTML文件连接成一个。它实际上只是在第一个HTML代码之后插入第二个HTML代码。你知道吗
htmlfile1 = urllib.urlopen(url1)
htmlfile2 = urllib.urlopen(url2)
htmltext1 = htmlfile1.read()
htmltext2 = htmlfile2.read()
name=symbolslist[i]+'.html'
o=open(name, "w")
o.write(htmltext1)
o.write(htmltext2)
o.close()
在我的另一个线程中,当解决方案正确时,我似乎很难使用bs4解析第二个HTML部分的信息。你知道吗
我没有问题解析第一个HTML的信息。你知道吗
线程: beautifulsoup parsing - dealing with superscript?
因此,我想知道BeautifulSoup是否适用于连接的HTML。你知道吗
你不应该指望这能奏效。解析器希望使用一个HTML文档。你知道吗
HTML解析器尝试修复损坏的HTML,这样您就可以得到一些结果。但是,由于
id
属性值在HTML中必须是唯一的,因此不能像预期的那样工作。你知道吗只需将HTML存储在不同的文件中,并为它们创建不同的
BeautifulSoup()
对象。内存中可以有多个soup对象而不会出现问题。你知道吗相关问题 更多 >
编程相关推荐