用scikit了解准确度，用我自己的语料库学习？问题的回答

用scikit了解准确度，用我自己的语料库学习？

回答此问题可获得 20 贡献值，回答如果被采纳可获得 50 分。

假设我已经准备好使用scikit learn和<code>SVC</code>进行一些文本分类。首先我将语料库矢量化，将数据分成测试集和训练集，然后将标签设置到训练集中。现在我想获得分类的准确性。 从<a href="http://scikit-learn.org/stable/modules/model_evaluation.html#accuracy-score" rel="nofollow">documentation</a>中，我看到了以下内容： <pre><code>>>> import numpy as np >>> from sklearn.metrics import accuracy_score >>> y_pred = [0, 2, 1, 3] >>> y_true = [0, 1, 2, 3] >>> accuracy_score(y_true, y_pred) 0.5 >>> accuracy_score(y_true, y_pred, normalize=False) 2 </code></pre> 问题是我不明白什么是：<code>y_pred = [0, 2, 1, 3]</code>和<code>y_true = [0, 1, 2, 3]</code>，以及一旦我对自己的语料库的测试集进行分类，我如何才能“达到”或获得这些值。有谁能帮我解决这个问题吗？。 举个例子： 培训数据： <pre><code>Pošto je EULEX obećao da će obaviti istragu o prošlosedmičnom izbijanju nasilja na sjeveru Kosova, taj incident predstavlja još jedan ispit kapaciteta misije da doprinese jačanju vladavine prava. De todas as provações que teve de suplantar ao longo da vida, qual foi a mais difícil? O início. Qualquer começo apresenta dificuldades que parecem intransponíveis. Mas tive sempre a minha mãe do meu lado. Foi ela quem me ajudou a encontrar forças para enfrentar as situações mais decepcionantes, negativas, as que me punham mesmo furiosa. Al parecer, Andrea Guasch pone que una relación a distancia es muy difícil de llevar como excusa. Algo con lo que, por lo visto, Alex Lequio no está nada de acuerdo. ¿O es que más bien ya ha conseguido la fama que andaba buscando? Vo väčšine golfových rezortov ide o veľký komplex niekoľkých ihrísk blízko pri sebe spojených s hotelmi a ďalšími možnosťami trávenia voľného času – nie vždy sú manželky či deti nadšenými golfistami, a tak potrebujú iný druh vyžitia. Zaujímavé kombinácie ponúkajú aj rakúske, švajčiarske či talianske Alpy, kde sa dá v zime lyžovať a v lete hrať golf pod vysokými alpskými končiarmi. </code></pre> 测试数据： <pre><code>Por ello, ha insistido en que Europa tiene que darle un toque de atención porque Portugal esta incumpliendo la directiva del establecimiento del peaje Estima-se que o mercado homossexual só na Cidade do México movimente cerca de oito mil milhões de dólares, aproximadamente seis mil milhões de euros import codecs, re, time from itertools import chain from sklearn.feature_extraction.text import CountVectorizer from sklearn.naive_bayes import MultinomialNB trainfile = 'train.txt' testfile = 'test.txt' # Vectorizing data. train = [] word_vectorizer = CountVectorizer(analyzer='word') trainset = word_vectorizer.fit_transform(codecs.open(trainfile,'r','utf8')) tags = ['bs','pt','es','sr'] # Training NB mnb = MultinomialNB() mnb.fit(trainset, tags) # Tagging the documents codecs.open(testfile,'r','utf8') testset = word_vectorizer.transform(codecs.open(testfile,'r','utf8')) results = mnb.predict(testset) print results </code></pre>

0 条评论
分类：Python问答

默认排序时间排序

1 个回答

匿名 1天前

　擅长：python、mysql、java

用scikit了解准确度，用我自己的语料库学习？

1 个回答

相关Python问题