使用scikit学习区分相似的类别

import numpy from sklearn.pipeline import Pipeline from sklearn.feature_extraction.text import CountVectorizer from sklearn.svm import LinearSVC from sklearn.feature_extraction.text import TfidfTransformer from sklearn.multiclass import OneVsRestClassifier from pandas import DataFrame def build_data_frame(path, classification): rows = [] index = [] f = open(path, mode = 'r', encoding="utf8") txt = f.read() rows.append({'text': txt, 'class': classification}) index.append(path) data_frame = DataFrame(rows, index=index) return data_frame # Categories PR = 'PR' AR = 'AR' KID = 'KID' SAR = 'SAR' # Training documents SOURCES = [ (r'C:/temp_training/PR/PR1.txt', PR), (r'C:/temp_training/PR/PR2.txt', PR), (r'C:/temp_training/PR/PR3.txt', PR), (r'C:/temp_training/PR/PR4.txt', PR), (r'C:/temp_training/PR/PR5.txt', PR), (r'C:/temp_training/AR/AR1.txt', AR), (r'C:/temp_training/AR/AR2.txt', AR), (r'C:/temp_training/AR/AR3.txt', AR), (r'C:/temp_training/AR/AR4.txt', AR), (r'C:/temp_training/AR/AR5.txt', AR), (r'C:/temp_training/KID/KID1.txt', KID), (r'C:/temp_training/KID/KID2.txt', KID), (r'C:/temp_training/KID/KID3.txt', KID), (r'C:/temp_training/KID/KID4.txt', KID), (r'C:/temp_training/KID/KID5.txt', KID), (r'C:/temp_training/SAR/SAR1.txt', SAR), (r'C:/temp_training/SAR/SAR2.txt', SAR), (r'C:/temp_training/SAR/SAR3.txt', SAR), (r'C:/temp_training/SAR/SAR4.txt', SAR), (r'C:/temp_training/SAR/SAR5.txt', SAR) ] # Real documents TESTS = [ (r'C:/temp_testing/PR/PR1.txt'), (r'C:/temp_testing/PR/PR2.txt'), (r'C:/temp_testing/PR/PR3.txt'), (r'C:/temp_testing/PR/PR4.txt'), (r'C:/temp_testing/PR/PR5.txt'), (r'C:/temp_testing/AR/AR1.txt'), (r'C:/temp_testing/AR/AR2.txt'), (r'C:/temp_testing/AR/AR3.txt'), (r'C:/temp_testing/AR/AR4.txt'), (r'C:/temp_testing/AR/AR5.txt'), (r'C:/temp_testing/KID/KID1.txt'), (r'C:/temp_testing/KID/KID2.txt'), (r'C:/temp_testing/KID/KID3.txt'), (r'C:/temp_testing/KID/KID4.txt'), (r'C:/temp_testing/KID/KID5.txt'), (r'C:/temp_testing/SAR/SAR1.txt'), (r'C:/temp_testing/SAR/SAR2.txt'), (r'C:/temp_testing/SAR/SAR3.txt'), (r'C:/temp_testing/SAR/SAR4.txt'), (r'C:/temp_testing/SAR/SAR5.txt') ] data_train = DataFrame({'text': [], 'class': []}) for path, classification in SOURCES: data_train = data_train.append(build_data_frame(path, classification)) data_train = data_train.reindex(numpy.random.permutation(data_train.index)) examples = [] for path in TESTS: f = open(path, mode = 'r', encoding = 'utf8') txt = f.read() examples.append(txt) target_names = [PR, AR, KID, SAR] classifier = Pipeline([ ('vectorizer', CountVectorizer(ngram_range=(1, 2), analyzer='word', strip_accents='unicode', stop_words='english')), ('tfidf', TfidfTransformer()), ('clf', OneVsRestClassifier(LinearSVC()))]) classifier.fit(data_train['text'], data_train['class']) predicted = classifier.predict(examples) print(predicted)

1条回答

网友

1楼 · 发布于 2024-05-12 13:26:14

这不是一个严格意义上的编程问题，所以我建议您尝试将其发布到一个更与数据科学相关的堆栈中。你知道吗

无论如何，你可以尝试一些事情：

使用其他分类器。你知道吗
使用网格搜索调整分类器超参数。你知道吗
使用OneVsOne代替OneVsAll作为策略。这可能会帮助您区分SAR和AR
对于“显示特定文档的识别百分比”，可以使用来自某些模型的概率输出。使用classifier.predict_proba函数而不是classifier.predict函数。你知道吗

祝你好运！你知道吗

相关问题更多 >

编程相关推荐

热门问题

热门文章