2024-04-24 02:55:00 发布
网友
Python的NLTK包有一个函数dispersion plot,它显示所选单词在文本中的位置。在python中是否可以计算出这种离散度的数值度量?E、 我想衡量一下“钱”这个词是在课文中流传还是集中在一章中?你知道吗
我相信有多种衡量标准可以用来定量地衡量一个词在文本中的信息性。他说
由于您提到章节和文本是您希望评估的级别,因此基本方法是相同的:
如果比较超过了一个临界值,你可以说它是有意义的或有信息的。根据模型的不同,可以使用这两个级别上的其他度量。他说
有几个模型可以使用。他说
可以在章节和文本级别上使用原始字数。百分比阈值可用于确定作为文本代表的主题。他说
例如,如果num_word_per_chapter/num_all_words_per_chapter > threshold和/或num_word_per_text/num_all_words_text > threshold,则可以声明它具有代表性。这可能是一个很好的基线。它本质上是一种类似于bag-of-words的技术。他说
num_word_per_chapter/num_all_words_per_chapter > threshold
num_word_per_text/num_all_words_text > threshold
Vector space models用于信息检索和分布语义。他们通常使用稀疏的计数向量或TF-IDF。用余弦相似性对两个向量进行比较。较近的向量具有较小的角度,并且被认为“更像”。他说
您可以为文本体创建章节术语矩阵和平均余弦相似性度量。如果average_cos_sim > threshold,你可以说它对这个主题的信息量更大。他说
average_cos_sim > threshold
这是一个带有NLTK的good example of VSM。这可能是开始一些测试的好地方。他说
我预见到的困难是:
我不能给你一个更实际的基于代码的答案,但我希望这给你一些选择开始。他说
我相信有多种衡量标准可以用来定量地衡量一个词在文本中的信息性。他说
方法论
由于您提到章节和文本是您希望评估的级别,因此基本方法是相同的:
如果比较超过了一个临界值,你可以说它是有意义的或有信息的。根据模型的不同,可以使用这两个级别上的其他度量。他说
模型
有几个模型可以使用。他说
原始计数
可以在章节和文本级别上使用原始字数。百分比阈值可用于确定作为文本代表的主题。他说
例如,如果
num_word_per_chapter/num_all_words_per_chapter > threshold
和/或num_word_per_text/num_all_words_text > threshold
,则可以声明它具有代表性。这可能是一个很好的基线。它本质上是一种类似于bag-of-words的技术。他说向量空间模型
Vector space models用于信息检索和分布语义。他们通常使用稀疏的计数向量或TF-IDF。用余弦相似性对两个向量进行比较。较近的向量具有较小的角度,并且被认为“更像”。他说
您可以为文本体创建章节术语矩阵和平均余弦相似性度量。如果
average_cos_sim > threshold
,你可以说它对这个主题的信息量更大。他说实例与难点
这是一个带有NLTK的good example of VSM。这可能是开始一些测试的好地方。他说
我预见到的困难是:
我不能给你一个更实际的基于代码的答案,但我希望这给你一些选择开始。他说
相关问题 更多 >
编程相关推荐