2024-04-19 08:18:43 发布
网友
嘿,伙计们,我很困惑如何对词干算法进行实证分析,例如lancaster和porter词干分析器,因为它们与排序算法相比没有时间效率。你知道吗
我尝试的是在nltk上导入它们,然后在python中使用timer对它们进行计时,并对数据进行1000次标准化,但我不太确定对词干提取算法进行实证分析是什么意思,还是完全不同?你知道吗
实证分析本身只是指分析(通常是评估)你的“东西”(算法、理论、应用程序、代码)与一些数据(相对于理论/逻辑评估)。你使用什么样的数据(以及你评估什么样的东西)可能会有所不同。因为词干所需的时间,比如说,1000个单词,是很容易测量的,这确实是很容易进行经验评估的。另一种方法是评估输出的质量(我猜,这就是您想要做的)。当你有一些数据(比如,一个单词及其词干或引理的列表)时,你可以这样做,运行你的词干分析器/引理器,然后看看它正确了多少次。 wordnet中有一些东西可以帮助您(因为wordnet中的语法集有引理信息(您也可以将其解释为词干(词干和引理化之间有区别,但一些Google或搜索会更详细地解释这一点)。你知道吗
以下内容可能会对您有所帮助:
>>> from nltk.corpus import wordnet as wn >>> d = wn.synsets('dogs')[0] >>> d.lemmas() [Lemma('dog.n.01.dog'), Lemma('dog.n.01.domestic_dog'), Lemma('dog.n.01.Canis_familiaris')]
它采用单词“dogs”的第一个语法集(通常给定单词有多个语法集),通过使用.lemmas()可以访问它的引理。现在你有了引理对这个词。对输入的单词运行词干分析器/引理分析器,数一数它将词干/引理纠正了多少次,对每个词干分析器都这样做,就这样了。 您将不得不更详细地研究它(例如,哪个synset,哪个引理),但希望这对您有所帮助。你知道吗
实证分析本身只是指分析(通常是评估)你的“东西”(算法、理论、应用程序、代码)与一些数据(相对于理论/逻辑评估)。你使用什么样的数据(以及你评估什么样的东西)可能会有所不同。因为词干所需的时间,比如说,1000个单词,是很容易测量的,这确实是很容易进行经验评估的。另一种方法是评估输出的质量(我猜,这就是您想要做的)。当你有一些数据(比如,一个单词及其词干或引理的列表)时,你可以这样做,运行你的词干分析器/引理器,然后看看它正确了多少次。 wordnet中有一些东西可以帮助您(因为wordnet中的语法集有引理信息(您也可以将其解释为词干(词干和引理化之间有区别,但一些Google或搜索会更详细地解释这一点)。你知道吗
以下内容可能会对您有所帮助:
它采用单词“dogs”的第一个语法集(通常给定单词有多个语法集),通过使用.lemmas()可以访问它的引理。现在你有了引理对这个词。对输入的单词运行词干分析器/引理分析器,数一数它将词干/引理纠正了多少次,对每个词干分析器都这样做,就这样了。 您将不得不更详细地研究它(例如,哪个synset,哪个引理),但希望这对您有所帮助。你知道吗
相关问题 更多 >
编程相关推荐