多语言网页内容提取器

pyce3的Python项目详细描述


pyce3:Python3的多语言网页内容提取器

简介

pyce3是一个python3包,用于多语言网页内容提取。它用于提取文章类型网页的内容,如新闻、博客文章等

使用

importpyce3importrequestsurl="http://caijing.chinadaily.com.cn/a/201911/21/WS5dd62455a31099ab995ed438.html"html=requests.get(url).contentencoding,time,title,text,next_link=pyce3.parse(url,html)print("编码:"+encoding)print('='*10)print("标题:"+title)print("时间:"+time)print('='*10)print("内容:"+text)print("NextPageLink: ",next_link)

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
使用Spring和继承的java线程安全性   java通知不会出现在Android 8.0 Oreo上   java如何快速开发我的安卓应用程序   使用java从xml中标记值   java@Import annotation的用例是什么?   java增加线程数量是否会使生产者-消费者问题更快?   java在Business Central中创建记分卡时不起作用?   java My cursor只从sql数据库中获取最后一个条目,但我需要所有条目   java如何用显示的字符替换波斯语Unicode字符?   非对称加密如何在JAVA中不使用外部库生成私有公钥   java如何在JPQL中使用in子句?   java SpringDataJPA在向数据库插入一条记录后执行无限递归   java使用HtmlUnit下载javascript图像   java SQL异常:意外的令牌UCanAccess