词嵌入的语言诊断

ldt的Python项目详细描述


一个语言诊断工具包(LDT)。图片::https://travis-ci.com/annargrs/ldt.svg?branch=master
:目标:https://travis ci.com/annargrs/ldt
:alt:build status

。包含标记begin don not remove


*从统一接口查询大量字典以执行**拼写规范化、元素化、形态分析、从wordnet检索语义关系、wiktionary、babelnet**,等等。

*以上是**探索和分析单词嵌入**,即单词作为向量的酷分布表示。

如果您从未听说过单词嵌入--您错过了,这里是"简介"<;https://www.shanelynn.i e/get busy with word embeddings introduction/>;`。如果有,请访问"项目网站"以获取一些新的研究结果。如果您不关心单词嵌入,您仍然可以使用ldt作为nltk、spacy和其他伟大的nlp工具的补充。

**注意:**ldt正在积极开发中;英语的所有字典功能和运行实验的脚本都已经可用。与"vecto library<;vecto.space>;"集成和优化将在最近几周内完成;请经常更新您的安装。您还可以加入"讨论"https://groups.google.com/forum/!论坛/语言诊断>;``小组讨论您的结果,并获得有关新版本的通知!

---------------------------
用于分析单词嵌入的ldt
---------------------------

`install and configure<;https://ldt.readthedocs.io/tutorial/installation.html>;`\u
ldt,并运行此示例脚本(和/或将其更改为调整"resources<;https://ldt.readthedocs.io/tutorial/dicts/index.html>;`
用于关系检测:

::


python3-m ldt.实验。默认工作流

|51.819 52.061 52.9
>+---------+------+-----+
>共享操作30.061 35.507 31.706
+-------+----+-----+--------+br/>>52.061.819 52.819 52.819;52.061.819/>同义词0.413 0.443 0.447
+二、二、三、三、三、三、三、三、三、三、三、四、四、四、四、四、四、四、四、四、四、四、四、六、六、六、六、六、六、六、六、六、六、六、六、六、六、六、六、六、六、六、六、六、六、六、六、六、六、六、六、六、六、六、六、六、六、六、六、六、六、六、六、六、六、六、六、六、六、六、六、六、六、六、六、六、六、六、六、六、六、六、六、六、六、六、六、六、六、六、六、六、六、六、六、六、六、六、六、六、六
+—————————————————————————————————————————————+-——+———————————————13.546 9.914 12.809 12.809 13.546 13.546 9.914 12.809





+——————————————————————————————————————————————————————————————————————————hbors 25.209 49.934 21.41
+—————————————————————————————————————————————————————————————————————————————————————————————这些信息来自于大量的词典(见下文),您可以微调要使用的词典。


ldt profile解释了您的嵌入模型实际捕获的信息类型。这可以帮助您预测模型在
特定任务上的性能,并给出一些改进方法。
60个嵌入式和21个
数据集的大规模实验结果。<;http://ldtoolkit.space/analysis/correlation/>;`


是的,你听对了,你可以使用自己的词汇示例,这个示例对于你正在优化的任何下游任务都是有意义的!

注意:

请继续关注,我们正在努力使其更快。
目前只为嵌入提供分布分析
在我们的"预处理维基百科转储"上进行了培训,http://ldtoolkit.space/task\u data/>;` `,
它也可以在依赖分析版本中使用。
从任何其他
语料库中计算分布信息的能力即将到来。

一对词中可能包含的c关系。这个超级复杂的
过程现在可以在一次单击中执行:

>>;>;relation\u analyzer=ldt.relations.relationsinpair()
>;>;relation\u analyzer.analyze("黑"、"白")
{下义:真,
"sharedmorpform":真,
"sharedpos":真,
"同义词":真,
"反义词":真,
"最短路径":0.058823529411764705,
"关联":真}


不用说,*white*和*black*并不总是反义词。
上下文依赖是我们正在考虑的问题,请关注未来的工作。

-——————————————————————————————————————————————————————————————————————————————————————您可以在一次单击中访问任何给定单词的所有组合信息:

>;>;封装=ldt.word("封装")
>;>;封装.pp_info()
==Derivational info=====
词干:封装,封装,封装
后缀:-ion,-ate
前缀XES:en-
其他派生词:
相关词:封装、封装审查、glissonian封装、封装、封装
语义信息=======额外的单词类===
属性:false
噪声:false
数字:false
url:false
标签:false
文件名:false
外来词:false
拼写错误:false
缺少:false

要提供这一点,ldt查询各种新旧资源。相应地,
它们现在都可以从一个统一的python接口访问,
将ldt作为nltk的伙伴,在其他nlp研究领域作为nltk的伙伴,使ldt可以在其他nlp研究领域作为nltk的伙伴使用。


ldt资源的一些快速亮点:



>>++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++是的从Wordnet,Wiktionary,Wiktionary,Wiktiona词典,Babelnet上检索相关词汇:
+++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++br/>>>>;wiktionary.获取关系("白色",回复lation="同义词")
['pale','fair']
>;>>wikisaurus=ldt.dicts.semantics.wikisaurus()
>;>>wikisaurus.get"relations("cat",relations="all")
{同义词:['tabby','puss','cat','kitty','moggy','housecat','malkin kitten','tom'grimalkin','pussy cat','mous'er'、'pussy'、'queen'、'tomcat'、'mog'、
'下义名':[]、
'上义名':['哺乳动物'、'食肉动物'、'脊椎动物'、'猫'、'动物'、'生物',
'反义词':[]、
'鱼龙':[]}
>;>;babelnet=ldt.dicts.semantics.babeblnet()
>;>;babelnet.get-relations("senator",关系=("超名称")
{超名称':['le基斯拉蒂夫议会、大都会议会、波兰议会、立法议席、罗马参议员、乐队、上院、政治领袖、新兵、音乐团、长老会、政治家、政治领袖、独奏计划、政策制定者、政治人物、政策制定者、政策制定者米兰荣誉大主教","审议大会","合奏","职业政治","独奏项目","音乐组合列表","立法","罗马参议员","米兰大主教","政治","摇滚乐队","部门领导","音乐组织","音乐组合","四件套","罗马CA意大利米兰大主教教区、上议院、米兰大主教教区、乐队、米兰使徒教会、立法部门、团体、独奏项目、音乐合奏、立法者、罗马参议员、政府立法部门、独奏法案、赞助、罗马天主教大主教米兰议会、酒吧乐队、罗马参议院、审议机构、米兰议会、立法机关、音乐团体、安布罗西安天主教会、奥里萨邦立法机关、政府立法部门、政客名单、参议院中尉、罗马天主教大教区"奥迪沙岛"、"乐队成员"、"集会"、"米兰大教区"、"米兰主教"、"合奏音乐"、"独奏音乐家"、"音乐二重奏"、"政府立法部门"、"第一议院"、"政治家"、"立法机构"、"政治领导人"、"政治"、"音乐团体"、"立法机构"、"立法机构"职业政治家、立法机关、摇滚乐队、立法权力、米兰教区、音乐团、音乐组织、修订室、米兰大主教、政治领袖、审议大会、应征入伍者、五人制、天主教米兰教区、流行乐"CK U乐队","Senatrix","议事机关","政治","罗马参议院","立法政治","米兰主教","立法分支","音乐乐队","米兰大主教","立法机关","大会","音乐团体","器乐团","政治表演","拍子","上议院","S"《基本法》、《征兵》、《立法者》、《立法者》]}

+br/>+++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++
>;>派生dict.dict=ldt.dict.dict.dicts.dicts.dicts。派生dicts.dicts.dicts.dicts。派生dicts.dicts.dicts。派生派生。派生。派生。派生。派生。派生。派生。派生。派生。比尔/>'其他':[],
'前缀':[],
'相关单词':['善良','善良','善良','善良','善良','善良','许多善良','第一类','善良','无火',
'根':['善良',
'后缀':['-无火'}

++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++
可靠的元素化,具有有效的规则和连接/babelnet:
+++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++

wordnet元素化器受词库大小的限制,即使
形态学模式对wa是直接的。研究方向:

>>>gt;morf-metadict=ldt.dicts.mat形态学.morphmetadict()
>>gt>gt;morf-metadict.metadict.metadict.lemmatize("gpus")
['gpu']



>
+++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++

向量邻域通常充满预处理噪声噪声噪声噪声,而向量邻域通常充满预处理噪声。还有错别字林斯ldt尽其所能清理一些简单的情况:

>;>analyzer=ldt.dicts.normalize.normalization()
>;>analyzer.normalize("%语法")
{lemmas':['grammar',
'在':['wordnet',
'单词分类':['misspellings',
'pos':['noun'}
>>gt;analyzer.normalize("gram mar")
{found_in':['wordnet'],
'lemmas':['grammar'],
'word_categories':['misspellings'],
'pos':['noun']}
>;>;analyzer.normalize("grammalexicon")
{found_in':['wordnet'],
'lemmas':['grammar','lexicon,
'word_类别':['misspellings'],
'pos':['noun']}


ldt还提供了更正频繁的拼写错误模式
(仅适用于高度确定的情况):

>;>spellchecker@ldt.dicts.spellcheck.spellchecker en()
>;>spellchecker@u en.spelling@nazitrary("abritary")
"任意"

……包含标记端不删除

——
——
快速链接
——

*`安装说明<;https://ldt.readthedocs.io/tutorial/installation.html>;` ` `
*`项目网站<;http://ldtoolkit.space>;` `
*` tutorial<;https://ldt.readthedocs.io/tutorial/index.html>;` `
*`API参考资料lt;https://ldt.readthedocs.io/genindex.html>;` `.
*`已发表的研究成果lt;http://aclweb.org/antology/c18-1228>;` ` `.
*`Word Embeddedings排行榜<;http://ldtoolkit.space/leaderboard/>;` ` ` ` ` ` ` ` ` ` ` ` ` ` ` ` ` ` ` ` ` ` ` ` ` ` ` ` `h下游任务性能<;http://ldtoolkit.space/analysis/correlation/>;` `.

----
support
----



如果有问题不起作用,请在github上打开一个问题。

----
多语言性
----


是的,ldt是多语言的!至少,就查询语义关系而言
。ldt支持babelnet,这是可用的最大的多语言词典资源-
,因此它们拥有的所有内容都是可检索的。许多其他ldt模块(特别是形态学模块)都是特定于语言的,目前只有英语是完全支持的。但是,添加其他语言的基础设施已经就位,因此如果您可以找到或创建
语言的词缀列表,则开发将很容易。如果您想参与进来,请与我们联系。


法律警告:ldt是开源自由软件。仓鼠在生产过程中不会受到伤害,
使用仓鼠也不会造成伤害。但是,没有任何保证。



v.0.4.0,2018-11-14


*错误修复


v.0.3.9,2018-11-04


*注释模块中的多核处理
*查询超时设置
*LDT资源中的并发数据的优化加载
*现在选择语料库统计l
*小修正

v.0.3.0,2018-10-08


*实验包:
-使用可选规范化提取向量邻域
-使用语言关系注释向量邻域
-分析结果
-自动记录所有实验的元数据ments
*错误修复

v 0.2.12018-09-25。


*错误修复。



*教程;
*19个ld变量,包括本体路径;
*使用特定语言派生模式检测反义词;
*错误修复。

v0.1.0182018-08-15--in初始发布。

*从babelnet、wiktionary、wikisaurus和english wordnet检索词典信息;
*从相同的资源检索形态学信息;
*使用wordnet和english的自定义规则进行元素化;
*基于自定义规则的生产性分析英语的后缀和前缀;
*分析词典词源
*按子词长度过滤的自定义复合拆分例程;
*修复频繁拼写错误的4个自定义模式。

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
javascript我的ajax调用延迟的原因是什么?   java Libgdx纹理大小Android   swing Java游戏通用设计Pong   多线程确保所有线程在Java中更新映射中的单个条目   java使用ARM64 musllibs编译OpenJDK 9及以上版本   java制作二进制到十进制转换器   java“您与用户的界面可以通过命令行”   java为什么scanner实例只读取3行代码   列表/映射中的java列表和字符串   java在Activity separate类中的使用,该类在Android Studio上创建带有set-onClickListeners的按钮   jersey 2客户端的java空响应   在java中检查字符串是否只有一个字符与回文不匹配   java如何通过CLI客户端获取jboss用户列表   我们什么时候应该在Java中使用/不使用初始化?   java计算简单三角形的面法线   java代码不在调试模式下执行,要求提供源代码   java更改意图的操作   java Jetty服务器错误