我有一个小班:
class HTMLTagStripper(HTMLParser):
def __init__(self):
self.reset()
self.fed = []
def handle_data(self, data):
self.fed.append(data)
def handle_starttag(self, tag, attrs):
if tag == 'a':
return attrs[0][1]
def get_data(self):
return ''.join(self.fed)
正在分析此HTML代码:
^{pr2}$这是我得到的结果:long text click here
但我想得到:long text click somelink.com
有办法吗?在
看看BeautifulSoup。。它会做到这一点,甚至更多。在
或者可以使用正则表达式/字符串操作来剥离所需的数据。从长远来看,使用像beauthoulsoup这样的东西会有回报的,尤其是如果你希望做更多这样的事情。在
这里有一种方法可以使用BeautifulSoup来提取HTML数据中的单一/仅链接(我不是这方面的专家,因此可能还有其他更好的方法-欢迎建议/更正)。在
将打印:
long text click somelink.com
实际上,我正在检查这个新的html解析器库并想出了这个解决方案:
您可以从Sourceforge或从python包索引:HtmlDom下载库,该库使用python3.x,该库的文档不是很好,但可以理解。希望你喜欢答案:)
这对您无效:
因为您还想从html标记中提取一些属性(如href)。在
正如莱文所指出的:你应该去追求美丽。在
相关问题 更多 >
编程相关推荐