BeautifulSoup是否仍然可以处理两个串联的HTML文件?

2024-03-29 08:14:55 发布

您现在位置:Python中文网/ 问答频道 /正文

我有一个脚本,将两个HTML文件连接成一个。它实际上只是在第一个HTML代码之后插入第二个HTML代码。你知道吗

htmlfile1 = urllib.urlopen(url1)
htmlfile2 = urllib.urlopen(url2)

htmltext1 = htmlfile1.read()
htmltext2 = htmlfile2.read()

name=symbolslist[i]+'.html'    

o=open(name, "w")  
o.write(htmltext1)
o.write(htmltext2)
o.close()    

在我的另一个线程中,当解决方案正确时,我似乎很难使用bs4解析第二个HTML部分的信息。你知道吗

我没有问题解析第一个HTML的信息。你知道吗

线程: beautifulsoup parsing - dealing with superscript?

因此,我想知道BeautifulSoup是否适用于连接的HTML。你知道吗


Tags: 文件代码name脚本信息readhtmlurllib
1条回答
网友
1楼 · 发布于 2024-03-29 08:14:55

你不应该指望这能奏效。解析器希望使用一个HTML文档。你知道吗

HTML解析器尝试修复损坏的HTML,这样您就可以得到一些结果。但是,由于id属性值在HTML中必须是唯一的,因此不能像预期的那样工作。你知道吗

只需将HTML存储在不同的文件中,并为它们创建不同的BeautifulSoup()对象。内存中可以有多个soup对象而不会出现问题。你知道吗

相关问题 更多 >