命名实体源和识别(NER)的多维数据集。
cubicweb-ner的Python项目详细描述
摘要
----
命名实体源和识别(NER)的多维数据集。
此多维数据集提供:
-NER source(即命名实体源)的概念,例如dbpedia或dbpedia en(用于
dbpedia(英语)。
-nerrentry的概念这是一个可以识别的标记/单词/条目。
基本上它需要一个“label”和一个“cwuri”,但是可以给一个“unormalize_label”
以加快匹配速度,给一个“weight”以消除歧义,或者给一个“lang”以进行排序。它应该与一个NeReals.BR/> BR/>——NelPurm的概念,它是一个实体实体类型,它存储了命名实体识别的参数
:一个“名称”、“主机”(AppID或SPARQL端点的URL)、
请求(RQL或SPARQL,带有用于替换的令牌密钥)、一个类型(“RQL”或“SPARQL”)
,和一个朗(用于排序)。
BR/> BR/>基本上可以定义一个词汇(NeSealEngor),它包含条目(NerEntry)。
因此可以在其他应用程序中定义进程(NerProcess),以检索某些内容中的这些条目。
Installation
----
创建实例:
*使用:cubicweb ctl Create ner<;name of instance>创建实例;
*使用:cubicweb ctl db Create<;实例名称>;
name=u“dbpedia-38-en”)
ner_u source=123)
或:
session.create戋u entity('neretry',label=u“barack obama”,cwuri=u“http://dbpedia.org/page/barack戋obama”,
ner戋u source=123,unormalize戋u label=u“barack obama”,lang=u“fr”,weight=1)
CW外壳):
会话。创建实体('nerprocess',name=<;进程的名称>;,host=<;主机的名称/url>;,
type=<;rql或sparql>;,request=<;rql或sparql query with%(token)s>;)
例如:
会话。创建实体('nerprocess',name=u'dbpedia38-en',host=u'ner',
type=u'rql',lang=u'en',
request=u'Any u WHERE X label%(token)s,X cwuri u,'
'X ner_source NS,NS name“dbpedia38 en”')
或:
会话。创建实体(“NerProcess”name=u'dbpedia-sparql',host=u'http://dbpedia.org/sparql',
type=u'sparql',lang=u'en',
request=u''选择?uri
在哪里{
?uri rdfs:label“%(w)s”@en.
?uri rdf:类型?类型
过滤器(?键入(DbPedieOWL:事件,
DbPedieOWL:BR/> dBPEDAI OWL:地方,
DbPedieOWL:Topic Curror)'BR/>命令> BR/> -BR/>
> BR/>存在一个命令“NeRealDigabdPydia”,用于从DbPEDIa转储导入标签:
BR/> *从DbPeDI下载“LabelsS.En.NT”(例如http://wiki.dbpedia.org/downloads38),
在数据集“titles”中。警告!您应该下载NT文件。
*解压缩文件
*使用命令:
例如,源>;可以是“dbpedia38 en”。
adapters
--
“inamedentiescontentabstract”适配器可用于暗示etype
具有可应用命名实体识别的内容。
----
命名实体源和识别(NER)的多维数据集。
此多维数据集提供:
-NER source(即命名实体源)的概念,例如dbpedia或dbpedia en(用于
dbpedia(英语)。
-nerrentry的概念这是一个可以识别的标记/单词/条目。
基本上它需要一个“label”和一个“cwuri”,但是可以给一个“unormalize_label”
以加快匹配速度,给一个“weight”以消除歧义,或者给一个“lang”以进行排序。它应该与一个NeReals.BR/> BR/>——NelPurm的概念,它是一个实体实体类型,它存储了命名实体识别的参数
:一个“名称”、“主机”(AppID或SPARQL端点的URL)、
请求(RQL或SPARQL,带有用于替换的令牌密钥)、一个类型(“RQL”或“SPARQL”)
,和一个朗(用于排序)。
BR/> BR/>基本上可以定义一个词汇(NeSealEngor),它包含条目(NerEntry)。
因此可以在其他应用程序中定义进程(NerProcess),以检索某些内容中的这些条目。
Installation
----
创建实例:
*使用:cubicweb ctl Create ner<;name of instance>创建实例;
*使用:cubicweb ctl db Create<;实例名称>;
name=u“dbpedia-38-en”)
ner_u source=123)
或:
session.create戋u entity('neretry',label=u“barack obama”,cwuri=u“http://dbpedia.org/page/barack戋obama”,
ner戋u source=123,unormalize戋u label=u“barack obama”,lang=u“fr”,weight=1)
CW外壳):
会话。创建实体('nerprocess',name=<;进程的名称>;,host=<;主机的名称/url>;,
type=<;rql或sparql>;,request=<;rql或sparql query with%(token)s>;)
例如:
会话。创建实体('nerprocess',name=u'dbpedia38-en',host=u'ner',
type=u'rql',lang=u'en',
request=u'Any u WHERE X label%(token)s,X cwuri u,'
'X ner_source NS,NS name“dbpedia38 en”')
或:
会话。创建实体(“NerProcess”name=u'dbpedia-sparql',host=u'http://dbpedia.org/sparql',
type=u'sparql',lang=u'en',
request=u''选择?uri
在哪里{
?uri rdfs:label“%(w)s”@en.
?uri rdf:类型?类型
过滤器(?键入(DbPedieOWL:事件,
DbPedieOWL:BR/> dBPEDAI OWL:地方,
DbPedieOWL:Topic Curror)'BR/>命令> BR/> -BR/>
> BR/>存在一个命令“NeRealDigabdPydia”,用于从DbPEDIa转储导入标签:
BR/> *从DbPeDI下载“LabelsS.En.NT”(例如http://wiki.dbpedia.org/downloads38),
在数据集“titles”中。警告!您应该下载NT文件。
*解压缩文件
*使用命令:
例如,源>;可以是“dbpedia38 en”。
adapters
--
“inamedentiescontentabstract”适配器可用于暗示etype
具有可应用命名实体识别的内容。