mmseg-20013;-20998;-35789基于mmseg算法的中文段
mmseg的Python项目详细描述
mmseg-zhong词关于mmseg算法的中文段
如果你有兴趣,看看原始版本mmseg.search
----------
哈尔罗杰历险记(套)
哈尔
罗杰
历险
历险记
----------
卡拉马佐夫兄弟
卡拉
马
佐夫
兄弟
----------
银河英雄传说
银河
英雄
传说
银河英雄传说
----------
张无忌在光明顶
无忌
张无忌
光明
光明顶
----------
韦帅望的江湖(Ⅲ众望所归)
韦帅
帅望
韦帅望
江湖
众望
望所
所归
众望所归
----------
少年韦帅望之童年结束了
少年
韦帅
帅望
望之
韦帅望之
童年
结束
----------
晋江文学网站驻站作家,已出版多部作品。
晋江
文学
网站
文学网站
驻站
作家
出版
多部
作品
-------------------------------
分词用,适用于聚类等等
from mmseg import seg_txt
for i in 段TXT(“打印/usr/bin/env python
import xapian
import sys
import string
从集合导入defaultdict
创建或打开数据库
search-enquire=xapian.enquire(search-db)
def in index-txt(id,txt):
doc=xapian.document()
definindex-txt(id,txt):
doc=xapian.document()
word,value)word,seg-txt-dict(txt.iteritems():
doc.addu-term(word,value)doc.addu-term(word,value)doc.add-term(word,value)
key=
%s%id
id
doc.add-term(key)
def flush_db():
搜索_db.flush()
治安署地最高长官站在街头,皱眉看着一队近卫军飞快地走过,他心中满是疑惑,立刻回到了治安署里地办公室,然后喊来了自己地一个部下,让他立刻去军方统帅部请示一下.
"""
index_txt(1,
flush-xapian-xapian-xapian-xapian-xapian-xapian-xapian-xapian-xapian-xapian-xapian-xapian-xapian-xapian编码:utf-8
mmseg.search从mmseg.seg _-txt _-txt _-txt _-txt _-2 _-dict
imp导入xapian-xapian-xapian-xapian.writable数据库(dbpath,xapian.db-xapian.db-xapian.db _创建或打开)的xapian-xapian-xapian-xapian-xapian-xapian数据库的搜索Xapian.查询(搜索数据库)
def搜索(关键字,offset=0,limit=35,enquire=search\u enquire:
query\u list=[]
对于word,seg\u txt\u dict(keywords)中的值。iteritems():
query=xapian.query(word,value)
query\u list.append(query)
如果len(query\u list)!=1:
query=xapian.query(xapian.query.ope和查询表,查询表)
else:
query=query查询表[0]
query查询查询设置查询查询(query)
matches=query查询获取mset(offset,limit,none)
return matches
matches=search=search(搜索)
>显示结果。
打印“%I results found.”%matches.get_matches撸estimated()
print“结果1-%I:”%matches.size()
m in matches:
打印“%I:%DocID=%I[%S]”%(m.rank+1,m.percent,m.DocID,m.document.get改data())
--------
rmmseg cpp
如果你有兴趣,看看原始版本mmseg.search
----------
哈尔罗杰历险记(套)
哈尔
罗杰
历险
历险记
----------
卡拉马佐夫兄弟
卡拉
马
佐夫
兄弟
----------
银河英雄传说
银河
英雄
传说
银河英雄传说
----------
张无忌在光明顶
无忌
张无忌
光明
光明顶
----------
韦帅望的江湖(Ⅲ众望所归)
韦帅
帅望
韦帅望
江湖
众望
望所
所归
众望所归
----------
少年韦帅望之童年结束了
少年
韦帅
帅望
望之
韦帅望之
童年
结束
----------
晋江文学网站驻站作家,已出版多部作品。
晋江
文学
网站
文学网站
驻站
作家
出版
多部
作品
-------------------------------
分词用,适用于聚类等等
from mmseg import seg_txt
for i in 段TXT(“打印/usr/bin/env python
import xapian
import sys
import string
从集合导入defaultdict
创建或打开数据库
search-enquire=xapian.enquire(search-db)
def in index-txt(id,txt):
doc=xapian.document()
definindex-txt(id,txt):
doc=xapian.document()
word,value)word,seg-txt-dict(txt.iteritems():
doc.addu-term(word,value)doc.addu-term(word,value)doc.add-term(word,value)
key=
%s%id
id
doc.add-term(key)
def flush_db():
搜索_db.flush()
治安署地最高长官站在街头,皱眉看着一队近卫军飞快地走过,他心中满是疑惑,立刻回到了治安署里地办公室,然后喊来了自己地一个部下,让他立刻去军方统帅部请示一下.
"""
index_txt(1,
flush-xapian-xapian-xapian-xapian-xapian-xapian-xapian-xapian-xapian-xapian-xapian-xapian-xapian-xapian编码:utf-8
mmseg.search从mmseg.seg _-txt _-txt _-txt _-txt _-2 _-dict
imp导入xapian-xapian-xapian-xapian.writable数据库(dbpath,xapian.db-xapian.db-xapian.db _创建或打开)的xapian-xapian-xapian-xapian-xapian-xapian数据库的搜索Xapian.查询(搜索数据库)
def搜索(关键字,offset=0,limit=35,enquire=search\u enquire:
query\u list=[]
对于word,seg\u txt\u dict(keywords)中的值。iteritems():
query=xapian.query(word,value)
query\u list.append(query)
如果len(query\u list)!=1:
query=xapian.query(xapian.query.ope和查询表,查询表)
else:
query=query查询表[0]
query查询查询设置查询查询(query)
matches=query查询获取mset(offset,limit,none)
return matches
matches=search=search(搜索)
>显示结果。
打印“%I results found.”%matches.get_matches撸estimated()
print“结果1-%I:”%matches.size()
m in matches:
打印“%I:%DocID=%I[%S]”%(m.rank+1,m.percent,m.DocID,m.document.get改data())
--------
rmmseg cpp