快速脏日期解析python库解析html日期非常快

qddate的Python项目详细描述


一个简单而肮脏的python解析器日期,在html抓取过程中可以找到的日期。图片::https://img.shields.io/travis/ivbeg/qddate/master.svg?style=flat square
:目标:https://travis ci.org/ivbeg/qddate
:alt:travis构建状态

…图片::https://img.shields.io/pypi/v/qddate.svg?style=flat square
:目标:https://pypi.python.org/pypi/qddate
:alt:pypi版本

…图片::https://readthedocs.org/projects/qddate/badge/?version=latest
:目标:http://qddate.readthedocs.org/en/latest/?徽章=最新
:alt:文档状态

…图像::https://codecov.io/gh/scrapinghub/dateparser/branch/master/graph/badge.svg
:目标:https://codecov.io/gh/ivbeg/qddate
:alt:code coverage

。图片::https://badges.gitter.im/scrapinghub/dateparser.svg
:alt:加入聊天,网址:https://gitter.im/ivbeg/qddate
:target:https://gitter.im/ivbeg/qddate?utm戋u source=badge&utm戋u medium=badge&utm戋u campaign=pr badge&utm戋u content=badge



`qddate'是一个python 3库,它帮助快速解析html页面中的任何日期字符串。这个库是在长期的
新闻聚合工作中创建的,并在带有日期的野生html页面中进行分析。它并不打算有漂亮的代码,
支持尽可能多的语言等等。它应该有助于处理数以百万计的字符串来识别
和分析日期。qddata是"新闻重建"专有技术的一部分。它用于从没有它的站点自动创建
rss源。





/>
文档
==


文档是自动生成的,可以在
`阅读文档<;https://qddate.read the docs.org/en/latest/>;` `.




功能
==

*支持348种以上的日期模式(到2017年底)
*通用parsin英语、俄语、西班牙语、葡萄牙语和其他语言中的g of dates
*支持带有左对齐日期和补充词的字符串。示例:"12.03.1999此处有些文本"
*速度极快,使用pyparsing、硬编码常量和脏速度优化技巧



基于GE的日期模式,例如在DateParser中。
*可能会丢失一些很少使用的日期格式
*不支持相对日期
*不支持日历



>速度优化
==

*所有常量都是硬编码的,没有外部设置
*仅使用datetime和pyparsing作为外部库。不再有依赖关系,所有重用代码都合并到lib代码中
*没有正则表达式,而是预先生成的pyparsing模式
*使用最小/最大文本长度筛选器和通用文本模式进行密集的模式筛选
*没有任何设置/数据文件从磁盘加载




usage
==


最简单的方法是使用"qddate.dateparser<;\qddate.dateparser>;``类,
和它的"parse"函数。








/>>;>parser.parse('2012-12-15')
datetime.datetime(2012,12,15,0,0)
2015年)
日期时间。日期时间(2015年1月13日13日34日)




尝试分析给定字符串中的日期,每次都尝试检测语言。








dependencies
=


*pyparsing是一个高级文本处理模块。
。_ pyparsing:https://pypi.python.org/pypi/pyparsing




支持的语言
===


*保加利亚语
*捷克语
*英语
*法语
*德语
*葡萄牙语
*俄语
*西班牙语


谢谢
=
ar和后来的版本只更新了几次,从正则表达式迁移到pyparsing。查看"dateparser"<;https://github.com/scrapinghub/dateparser>;`clean code and documentation促使我返回并清理此代码并公开共享。我使用了相同的文档和代码样式方法,并重用了dateutil的构建脚本和文档生成样式。
多亏了scrapinghub团队!



…图片::https://badges.gitter.im/qddate/lobby.svg
:alt:在https://gitter.im/qddate/lobby加入聊天
:target:https://gitter.im/qddate/lobby?联合技术手册来源=徽章和联合技术手册媒介=徽章和联合技术手册活动=公关徽章和联合技术手册内容=徽章

…:更改日志:


history
==



<0.1.1(2018-07-20)
----
*代码清理,日期模式移到"qddate.patterns"


0.1.0(2018-01-14)
----
*pypi和github上的第一次公开发布

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java中的ssl安全imap连接   java需要输入有关我的程序在字符串中查找重复项的效率的信息   java通过值和索引搜索数组   类java队列方法需要帮助   java中泛型类中的超类   java抽屉正在缓慢滚动   在itemListner上使用显式意图时java应用程序崩溃   JAVA中的POJO和DOJO是什么?   如何使用PEM文件在Java中对PDF进行数字签名?   java读取文件并拆分其内容并存储在数组中   java JavaFX动画计时器144 fps   java Tab touch在FragmentTabHost中使用水平滑动手势时不起作用   三角数组中随机数偏置的数学方法   java Android Studio 3.0 DexArchiveBuilderException   Java中的动态XML创建   java Firebase rest API过滤器查询   java就是javax。坚持不懈EntityManager线程安全   Java Spring REST拦截器   将数据结构从java传递到perl   在java中下载文件时发生socket错误。网SocketException:连接重置