基于自定义模型的空间文本处理

import spacy from spacy.lang.en.stop_words import STOP_WORDS import string def normalize(text, lowercase, remove_stopwords, remove_punctuation): nlp = spacy.load("en_core_web_sm", disable=['parser', 'tagger', 'ner']) stops = spacy.lang.en.stop_words.STOP_WORDS if lowercase: text = text.lower() text = nlp(text) if remove_punctuation: text = [t for t in text if t.text not in string.punctuation] lemmatized = list() for word in text: lemma = word.lemma_.strip() if lemma: if not remove_stopwords or (remove_stopwords and lemma not in stops): lemmatized.append(lemma) return " ".join(lemmatized)

编辑1

这是我训练模型的代码

def convert(): TRAINING_DATA = defaultdict(list) # Open CSV file. with open('train/profanity/data/profanity_cleaned_data_cleaned.csv', mode='r') as csv_file: csv_reader = csv.DictReader(csv_file) line_count = 1 for row in csv_reader: if line_count > 0 and line_count < 500: if row['is_offensive'] == '0': CLEAN = bool(1) PROFANITY = bool(0) else: CLEAN = bool(0) PROFANITY = bool(1) TRAINING_DATA['csv'].append([str(row['text']), { "CLEAN": CLEAN, "PROFANITY": PROFANITY}]) line_count += 1 return TRAINING_DATA['csv'] def train(): output_dir = 'train/profanity/model/' TRAINING_DATA = convert_csv_to_dataset.convert() nlp = spacy.blank("en") category = nlp.create_pipe("textcat") category.add_label("PROFANITY") category.add_label("CLEAN") nlp.add_pipe(category) # Start the training nlp.begin_training() # Loop for 10 iterations for itn in range(10): # Shuffle the training data random.shuffle(TRAINING_DATA) losses = {} # Batch the examples and iterate over them for batch in tqdm(spacy.util.minibatch(TRAINING_DATA, size=1)): texts = [nlp(text) for text, entities in batch] annotations = [{"cats": entities} for text, entities in batch] nlp.update(texts, annotations, losses=losses) # if itn % 20 == 0: # print(losses) nlp.to_disk(output_dir) print("Saved model to", output_dir)

已使用normalize方法对文件profanity_cleaned_data_cleaned.csv进行了预处理

1条回答

网友

1楼 · 发布于 2024-06-06 12:11:31

看看您的规范化代码，通过删除这么多信息并添加-PRON-之类的元素，您似乎摆脱了模型

从

You're such a sweet person. All the best!-10个令牌

到

-PRON- sweet person-5个令牌（-PRON->；- PRON -，三个令牌）

意味着在“清理”版本中，超过一半的令牌由这个-PRON-文本组成。也就是说，大多数输入严重偏向于-PRON-文本，而且swwet person几乎没有“重要”

您的培训代码看起来不错，只要清理后的csv是原始输入，使用相同的normalize函数进行清理

我建议进行以下修改

停止在清除的文本中包含像-PRON-这样的标记
在normalize中，在if lemma条件中添加一个else语句，在该条件下，单词将被添加，如果它没有引理，这可能是导致许多文本被删除的原因
使用更多数据进行培训，这一行意味着您最多只处理500行，但您说您有~18k行要处理if line_count > 0 and line_count < 500:
良好实践：在从csv读取文本之前，不要清理文本，这样可以在不必重新清理和保存新csv的情况下更改规范化功能

编辑1

相关问题更多 >

编程相关推荐

热门问题

热门文章