多语言网页内容提取器
pyce3的Python项目详细描述
pyce3:Python3的多语言网页内容提取器
简介
pyce3
是一个python3包,用于多语言网页内容提取。它用于提取文章类型网页的内容,如新闻、博客文章等
使用
importpyce3importrequestsurl="http://caijing.chinadaily.com.cn/a/201911/21/WS5dd62455a31099ab995ed438.html"html=requests.get(url).contentencoding,time,title,text,next_link=pyce3.parse(url,html)print("编码:"+encoding)print('='*10)print("标题:"+title)print("时间:"+time)print('='*10)print("内容:"+text)print("NextPageLink: ",next_link)
- 项目
标签: