通过流行的算法如simhash、spotsig、shingling等删除重复的文档。

deduplication的Python项目详细描述


重复数据消除

通过流行的算法(如simhash、spotsig、shingling等)删除重复的文档。

安装

运行以下命令:

# install current library
pip install deduplication

# install required pretrained NLP models 
python -m spacy download xx_ent_wiki_sm
python -m spacy download en_core_web_sm

示例

simhash

fromdeduplicationimportsimhashhashvalue1=simhash('this is text')hashvalue2=simhash('this is another text',n_block=4)

l-simhash

fromdeduplicationimportlsimhashhashvalue=lsimhash('this is very long article texts. maybe with a lot of sentences.')

引文

simhash

Sadowski C, Levin G. 
Simhash: Hash-based similarity detection[J]. 
Technical report, Google, 2007.

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
从java包创建可执行jar文件   使用SFDC合作伙伴API创建新的“OpportunityLineItemSchedule”时发生java错误   java如何将一些用户定义的自定义参数直接插入到动态清单中?   java确定JFrame的图形配置?   java 安卓 studio中PendingEvent中的请求代码是什么   java如何在javaFx中为多个场景创建一个菜单栏   java ListNode头。下一个next=新的ListNode(0);这个错误是什么?   javax-to-Google-text-api。网ssl。异常:管道破裂   JAVAlang.ClassCastException:org。冬眠hql。内部的阿斯特。树无法将SqlNode转换为组织。冬眠hql。内部的阿斯特。树FromReferenceNode   jxl中程序关闭时java数据损坏   在java中从arraylist获取对象字段   继承java如何在实现父方法的同时扩展类   java spring boot thin jar什么都不做   java Eclipse消息称列表无法解析为类型   Java中的swing简单动画   java将prejson编码的字符串输出到spring框架   java ExpandableListView。setOnClickListener工作不正常   java将servletinputstream转换为sequenceinputstream   用Java4th版思考(尝试使用NetBeans构建本书的项目,但没有成功)   如何使用java从PostgreSQL数据库中的现有数据库创建新的XML文件