从sklearn.feature\extraction.text.TfidfVectoriz使用TfidfVectorizer计算IDF

from sklearn.feature_extraction.text import TfidfVectorizer corpus = ["This is very strange", "This is very nice"] vectorizer = TfidfVectorizer( use_idf=True, # utiliza o idf como peso, fazendo tf*idf norm=None, # normaliza os vetores smooth_idf=False, #soma 1 ao N e ao ni => idf = ln(N+1 / ni+1) sublinear_tf=False, #tf = 1+ln(tf) binary=False, min_df=1, max_df=1.0, max_features=None, strip_accents='unicode', # retira os acentos ngram_range=(1,1), preprocessor=None, stop_words=None, tokenizer=None, vocabulary=None ) X = vectorizer.fit_transform(corpus) idf = vectorizer.idf_ print dict(zip(vectorizer.get_feature_names(), idf))

2条回答

网友

1楼 · 编辑于 2024-05-12 22:40:32

在sklearn的实现过程中，有两件事情是你可能无法预料的：

TfidfTransformer将smooth_idf=True作为默认参数
它总是增加1的重量

所以它使用：

idf = log( 1 + samples/documents) + 1

这里是源代码：

https://github.com/scikit-learn/scikit-learn/blob/master/sklearn/feature_extraction/text.py#L987-L992

编辑：您可以将标准TfidfVectorizer类划分为子类，如下所示：

import scipy.sparse as sp
import numpy as np
from sklearn.feature_extraction.text import (TfidfVectorizer,
                                             _document_frequency)
class PriscillasTfidfVectorizer(TfidfVectorizer):

    def fit(self, X, y=None):
        """Learn the idf vector (global term weights)
        Parameters
        ----------
        X : sparse matrix, [n_samples, n_features]
            a matrix of term/token counts
        """
        if not sp.issparse(X):
            X = sp.csc_matrix(X)
        if self.use_idf:
            n_samples, n_features = X.shape
            df = _document_frequency(X)

            # perform idf smoothing if required
            df += int(self.smooth_idf)
            n_samples += int(self.smooth_idf)

            # log+1 instead of log makes sure terms with zero idf don't get
            # suppressed entirely.
            ####### + 1 is commented out ##########################
            idf = np.log(float(n_samples) / df) #+ 1.0  
            #######################################################
            self._idf_diag = sp.spdiags(idf,
                                        diags=0, m=n_features, n=n_features)

        return self

网友

2楼 · 编辑于 2024-05-12 22:40:32

它们在计算idf时使用的实际公式（当smooth-idf为真时）是

idf = log( (1 + samples)/(documents + 1)) + 1

它在源代码中，但我认为web文档对此有点模棱两可。

https://github.com/scikit-learn/scikit-learn/blob/14031f6/sklearn/feature_extraction/text.py#L966-L969

相关问题更多 >

编程相关推荐

热门问题

热门文章