用Python获取网站描述的最佳方法是什么?
假设我下载了一个网页的HTML代码,并且我能解析它。那如果这个网页没有meta-description标签,我该怎么获取这个网站的“最佳”描述呢?
3 个回答
1
要找到一个能百分之百适用的规则其实很难,不过我建议你可以先找找页面里的第一个 <h1>
标签(或者 <h2>
, <h3>
等等,找那个层级最高的标签),然后看看它后面的文字,这部分可以用作描述。只要网站的结构标记得当,这样应该能给你一个不错的描述(我想你也可以直接用 <h1>
标签里的内容,但那更像是“标题”)。
有趣的是,像谷歌这样的搜索引擎会从页面内容中提取与关键词相关的部分来作为描述,而不是用一个固定的描述。不过,不知道这是否适合你的情况。
3
你可以从像Readability这样的工具中获取前面几句话。
Safari 5浏览器也在用这个,所以应该没问题 :)
1
接着上面提到的“可读性”建议(这个建议的灵感来源于InstaPaper网站),他们发布了一个JavaScript工具:http://code.google.com/p/arc90labs-readability/。更棒的是,有人把这个工具移植到了Python语言上:http://github.com/gfxmonk/python-readability。大家开心吧!