Roget词表的API
roget的Python项目详细描述
解析Roget同义词表并通过API访问。
Roget同义词表的文本从这里下载https://archive.org/details/rogetthesauruso10681gut
----
Class RogetBuilder
建立rogetthesaurus
t必须与脚本roget.py位于同一目录中
加载roget同义词库的实例(如果可能,从pickled/serialized form加载)
如果文件不存在
分析roget同义词库
将pickled form存储到文件
否则
从文件加载pickled form
返回rogetthesaurus的实例
不要使用这个!令人惊讶的是,从文本文件中解析它所需的时间更少。
(即使使用这种效率低下的解析器)
原因似乎是pickled格式比文本文件大得多;
pickle将类的类型添加为sexpression的第一个元素-
因此f冗余和pickle文件比文本文件大得多。
----
两个词条之间的larity,
返回以下元组(相似性得分,roget同义词表中的公共节点)
相似度得分:
100-两个词条都出现在同一个sensegroup节点中术语出现在同一叶类别中
0-其他所有
roget同义词库中的公共节点:如果分数为0,则为"无";否则,分数是基于此处定义的数据描述符的公共节点:
headwordindex
词头前-将词头映射到本体中的节点
ontology的根节点
词义索引-将词义映射到本体中的节点列表
----
class rogetnode
rogetnode-t由roget同义词库维护的所有节点的基类
r/>
child
返回子节点数组
description
返回可选描述(在文本中,它显示为[……])
internal id
每个节点都有自己的内部id
key
该节点的含义/键
返回父节点(本体中的一个)
type
返回该节点的类型为整数etthesaurusformatterxml
将roget同义词库格式化为xml的类
此处定义的方法:
显示(self、roget、file)
----
类感知(roget node)
单个感知(roget同义词库的叶节点
此处定义的方法:
_(self,type,parent)
tostring(self)
rs as"&;c;111"-链接到id为111的headword/>word type
可选的word type注释
从rogetnode继承的方法:
typetostring(self)
将此节点的类型作为字符串返回
从rogetnode继承的数据描述符:
child
返回子节点的数组
description
返回可选描述(在文本中,它显示为[…..])
internal id
每个节点都有自己的内部id
key
此节点的含义/键
返回父节点(本体中的一个)
type
返回此节点的类型为整数/>类头字(sense)
a headword
方法解析顺序:
headword
sense
rogetnode
标识roget同义词库中头字的字符串id
sense继承的数据描述符:
comment
可选注释(在文本中,这是出现在括号中的文本)
link
指向头字类型节点的可选链接(在文本this显示为"&;c;111"-链接到id为111的headword
link上的可选注释
optional word type annotation
rogetnode继承的方法:
typetostring(self
返回此节点的类型作为string
从rogetnode继承的数据描述符:
child
返回子节点数组
description
返回可选的描述(在文本中显示为[……])
internal id
每个节点都有自己的内部id
此节点的含义/键
返回父节点(本体中的一个)
type
将此节点的类型返回为整数sausFormatterText
将roget同义词库格式化为文本报告的类
此处定义的方法:
显示(self、roget、file、mask=15)
Roget同义词表的文本从这里下载https://archive.org/details/rogetthesauruso10681gut
----
Class RogetBuilder
建立rogetthesaurus
t必须与脚本roget.py位于同一目录中
如果文件不存在
分析roget同义词库
将pickled form存储到文件
否则
从文件加载pickled form
返回rogetthesaurus的实例
不要使用这个!令人惊讶的是,从文本文件中解析它所需的时间更少。
(即使使用这种效率低下的解析器)
原因似乎是pickled格式比文本文件大得多;
pickle将类的类型添加为sexpression的第一个元素-
因此f冗余和pickle文件比文本文件大得多。
----
两个词条之间的larity,
返回以下元组(相似性得分,roget同义词表中的公共节点)
相似度得分:
100-两个词条都出现在同一个sensegroup节点中术语出现在同一叶类别中
0-其他所有
roget同义词库中的公共节点:如果分数为0,则为"无";否则,分数是基于此处定义的数据描述符的公共节点:
headwordindex
词头前-将词头映射到本体中的节点
----
class rogetnode
rogetnode-t由roget同义词库维护的所有节点的基类
r/>
child
返回子节点数组
description
返回可选描述(在文本中,它显示为[……])
internal id
每个节点都有自己的内部id
key
该节点的含义/键
type
返回该节点的类型为整数etthesaurusformatterxml
将roget同义词库格式化为xml的类
此处定义的方法:
显示(self、roget、file)
----
类感知(roget node)
单个感知(roget同义词库的叶节点
此处定义的方法:
_(self,type,parent)
tostring(self)
rs as"&;c;111"-链接到id为111的headword/>word type
可选的word type注释
从rogetnode继承的方法:
typetostring(self)
将此节点的类型作为字符串返回
从rogetnode继承的数据描述符:
child
返回子节点的数组
description
返回可选描述(在文本中,它显示为[…..])
internal id
每个节点都有自己的内部id
key
此节点的含义/键
type
返回此节点的类型为整数/>类头字(sense)
a headword
方法解析顺序:
headword
sense
rogetnode
标识roget同义词库中头字的字符串id
sense继承的数据描述符:
comment
可选注释(在文本中,这是出现在括号中的文本)
link
指向头字类型节点的可选链接(在文本this显示为"&;c;111"-链接到id为111的headword
link上的可选注释
rogetnode继承的方法:
typetostring(self
返回此节点的类型作为string
从rogetnode继承的数据描述符:
child
返回子节点数组
description
返回可选的描述(在文本中显示为[……])
internal id
每个节点都有自己的内部id
type
将此节点的类型返回为整数sausFormatterText
将roget同义词库格式化为文本报告的类
此处定义的方法:
显示(self、roget、file、mask=15)