将文本语料库转换为一组关系事实。
rnlp的Python项目详细描述
关系nlp预处理(rnlp):一个python包和工具,用于将文本转换为一组关系事实。
安装
基于PyPi的稳定构建
pip install rnlp
快速启动
rnlp既可以用作命令行界面(CLI)工具,也可以用作导入的Python包
CLI | Imported |
^{pr 2}$ | ^{pr 3}$ |
由rnlp创建的关系包括以下内容:
- 语句在块中的相对位置:
- earlySentenceInBlock:语句出现在块的前三分之一内
- midWaySentenceInBlock:语句出现在块长度的前三分之一和后三分之一之间
- lateSentenceInBlock:语句出现在块长度的最后三分之一内。
- 单词在句子中的相对位置:
- earlyWordInSentence:单词出现在句子的前三分之一内
- midWayWordInSentence:单词出现在句子的三分之一到三分之二之间。
- lateWordInSentence:单词出现在句子的最后三分之一内。
- 项目之间的相对位置:
- nextWordInSentence:从一个单词指向其邻居的指针
- nextSentenceInBlock:从一个句子指向它的邻居的指针。
存在论语义学: - sentenceInBlock:语句出现在特定块中
- wordInSentence:单词出现在特定的句子中
- 关于单词的低级信息:
- wordString:单词的字符串表示形式。
- partOfSpeechTag:单词的词性(由nltk词性标记器确定)。
-
文件包含一个玩具语料库(example files/)和一个boostsrl树的图像,用于预测句子中的单词是否是单词“you”。
树上说,如果单词“b”中包含的字符串是“you”,那么“b”就是“you”,概率很高。(这当然是真的)。 一个更有趣的推论是错误的分支,它说如果单词“b”是句子“A”中的早期单词,单词“anon1235”也是句子“A”中的早期单词,如果单词“anon1235”中包含的单词字符串是“谢谢”,那么单词“b”有相当的机会成为单词“you”(模型能够得知,当“谢谢”出现在同一句话的开头时,“你”一词经常与“谢谢”一词出现在同一句话中)。