Python char-split包_程序模块 - PyPI

把一个德国化合物分成身体和头部

char-split的Python项目详细描述

基于CharSplit的德语复合拆分器ngram

把一个德国化合物分成身体和头部

Autobahnraststätte -> Autobahn - Raststätte

本论文附录所述方法的实施：

Tuggener，Don（2016年）。德语的增量共指解析。苏黎世大学文学院。在

TL；DR

该方法计算ngram在单词开头、结尾和中间出现的概率，并确定最有可能发生拆分的位置。在

该方法对Germanet compound test set上的头部检测精度达到95%。在

提供了一个模型，训练了100万。来自维基百科的德语名词。在

用法

训练新型号：

$ python char_split_train.py <your_train_file>

其中<your_train_file>每行包含一个单词（名词）。在

复合分裂

从命令行：

^{pr2}$
输出所有可能的拆分，按分数排序，例如
$ python char_split.py Autobahnraststätte 0.84096566854 Autobahn Raststätte -0.54568851959 Auto Bahnraststätte -0.719082070993 Autobahnrast Stätte ...
作为一个模块：
$ python >>> import char_split >>> char_split.split_compound('Autobahnraststätte') [[0.7945872450631273, 'Autobahn', 'Raststätte'], [-0.7143290887876655, 'Auto', 'Bahnraststätte'], [-1.1132332878581173, 'Autobahnrast', 'Stätte'], [-1.4010051533086552, 'Aut', 'Obahnraststätte'], [-2.3447843979244944, 'Autobahnrasts', 'Tätte'], [-2.4761904761904763, 'Autobahnra', 'Ststätte'], [-2.4761904761904763, 'Autobahnr', 'Aststätte'], [-2.5733333333333333, 'Autob', 'Ahnraststätte'], [-2.604651162790698, 'Autobahnras', 'Tstätte'], [-2.7142857142857144, 'Autobah', 'Nraststätte'], [-2.730248306997743, 'Autobahnrastst', 'Ätte'], [-2.8033113109925973, 'Autobahnraststä', 'Tte'], [-3.0, 'Autoba', 'Hnraststätte']]
文档拆分
从命令行：
$ python doc_split.py <dict>
从标准输入读取所有内容写出来一样，用最好的分割由中间点字符·分隔。在
每一个单词都被拆分成尽可能多的次数在包含德语单词的文件<；dict> 每行一个（允许以#开头的注释行）。在
默认字典的名称在文件doc_config.py中。在
注意，doc_split模块保留了一个已经拆分的字的缓存，因此，长文档的处理速度通常会相应加快比短的。当程序结束时，缓存被丢弃。在
$ python sentence1.txt Um die in jeder Hinsicht zufriedenzustellen, tüftelt er einen Weg aus, sinnlose Bürokratie wie Ladenschlußgesetz und Nachtbackverbot auszutricksen. $ python doc_split.py <sentence1.txt Um die in jeder Hinsicht zufriedenzustellen, tüftelt er einen Weg aus, sinnlose Bürokratie wie Laden·schluß·gesetz und Nacht·back·verbot auszutricksen.
作为一个模块：
$ python >>> import doc_split >>> # Constant containing a middle dot >>> doc_split.MIDDLE_DOT '·' >>> # Split a word as much as possible, return a list >>> doc_split.maximal_split('Verfassungsschutzpräsident') ['Verfassungs', 'Schutz', 'Präsident'] >>> # Split a word as much as possible, return a word with middle dots 'Verfassungs·schutz·präsident' >>> # Split all splittable words in a sentence >>> doc_split.doc_split('Der Marquis schlug mit dem Handteller auf sein Regiepult.') Der Marquis schlug mit dem Hand·teller auf sein Regie·pult.
文档拆分服务器
由于启动时间的原因，您可以运行文档拆分器作为一个简单的服务器，响应会更快。在
$ python doc_server [ -d ] <dict> <port>
服务器将加载<dict>并监听<port>。客户必须将UTF-8编码的原始数据发送到端口关闭端口的写端，然后服务器将返回分割数据。在
选项-d使服务器返回已排序的字典而不是分裂的词。每个单词都在一行上，原始单词后跟制表符，然后是拆分单词。在
由于Python的限制，服务器是单线程的。在
默认字典和端口在文件doc_config.py中。在
提供了一个普通客户端：
$ python doc_client <port> <host>
从标准输入中读取文档，将其发送到运行在<host>和<port>上的服务器，并将服务器的输出发送到标准输出。因此它具有与doc_split相同的接口（除非无法指定字典），但应该跑得快一点。在
默认主机和端口在文件doc_config.py中。在
下载词典
要下载doc_split和doc_server的德语和荷兰语词典：
$ cd dicts $ sh getdicts
这将从LibreOffice网站下载拼写插件，提取单词表，并将五个文件写入当前目录。它在/tmp中留下了很多文件，这些文件不再需要了。在
字典de-DE.dic、de-AT.dic和{}是相当广泛（每个25万字）并提供当前德语、奥地利语和瑞士语拼写。在
文件de-1901.dic提供了1901年至1996年期间使用的拼写。在
文件misc.dic是一个名词的集合，这些名词被错误地拆分并因此，它们被包括在词典中，这样它们就不会被分开了。在
文件legal.dic包含法律术语。运行前将其拆下如果你不想把它包括在内的话，就去做。在
文件de-mixed.dic是所有其他文件的合并。在
文件nl-NL.dic来自OpenOffice，提供荷兰语拼写（当前未使用）。在
如果需要，可以在运行getdicts之前添加自己的单词表。它们必须是纯UTF-8文本，每行一个单词从正确的语言开始通用电气代码（de表示德语）。在
如果程序的拆分不够困难，你可能想找到并使用一个较小的字典。在
标签：
项目
欢迎加入QQ群-->： 979659372
推荐PyPI第三方库
flake8-markdown
使用flake8标记文件中的lints python代码块
gatsp
python中天文时间序列的通用工具
metaq
Metaq client for Python.
sphinxcontrib-dotnetdomain
sphinx“dotnetdomain”扩展
dockhand
正确的方式来建立，标签和船舶共享码头集装箱。
pykkar
面向编程教学的虚拟机器人库
fs9721
没有项目描述
cache-tagging
项目已移动到https://pypi.python.org/pypi/cache-dependencies
contacthub-sdk-python
这是用于contacthub rest api的官方python sdk。这个sdk可以方便地访问contacthub上的数据，使身份验证立即生效，并简化读/写操作。
solrcloudp
用于与solrcloud交互的python库
stups-sevenseconds
配置AWS帐户
pywal
动态生成和更改颜色方案
mwtextextractor
通过剥离模板、HTML标记、表、标题等，从MediaWiki WikiText中提取正文文本。
nametrans
使用regex搜索/替换语义重命名文件
pystat
用于内存聚合的小型库。

导航栏
项目描述
版本历史
项目链接
首页
标签
许可证: BSD许可证（BSD 3条款）
作者信息:: 暂无
维护者
JoelNiklaus
最新PyPI项目
italian_vip_says
UFx
vofs
fake_item_generator
NerEva
django-monologue
fio_product_attribute_strict
climailsystem
pyshape
tbb-devel
npy-append-arra
anthill.tal.macrorenderer
odoo11-addon-stock-a
uuuu
contextil
fyl_nester
appomatic_renderable
teacher
chuletas
slackbot_ce
最新Python常见问题
使用Python创建一个非常大的二进制频率矩阵来运行协作过滤
使用Python创建一张HTML网页，其中在不同颜色中重复n遍显示“Hello World”的方法
使用Python创建一组唯一的值length L
使用python创建不同表格的透视表
使用python创建不和谐频道
使用python创建不存在的多个文件夹
使用python创建串行远程文件
使用python创建交互式仪表板时出现问题
使用python创建交互式绘图
使用python创建交互式自动电子邮件
使用Python创建价格列表
使用python创建修改的txt文件
使用Python创建全局变量，初始化后更改值
使用Python创建关键字搜索词数组
使用Python创建具有不均匀块大小/堆叠条形图的热图

char-split 0.1.0.dev2

char-split的Python项目详细描述

基于CharSplit的德语复合拆分器ngram

TL；DR

用法

训练新型号：

复合分裂

文档拆分

文档拆分服务器

下载词典

推荐PyPI第三方库

flake8-markdown

gatsp

metaq

sphinxcontrib-dotnetdomain

dockhand

pykkar

fs9721

cache-tagging

contacthub-sdk-python

solrcloudp

stups-sevenseconds

pywal

mwtextextractor

nametrans

pystat

导 航 栏

项目 链接

标 签

维护者

最新PyPI项目

最新Python常见问题

导航栏

项目链接

标签