基于注意双向GRU的字符篡改新闻分类

2024-05-15 22:17:43 发布

您现在位置:Python中文网/ 问答频道 /正文

我有一个相当小的体育新闻文章语料库(大约10000篇),我试图将新闻文章分为与板球相关的文章、与足球相关的文章等子类别

我试图获得比标准基线方法(带CRF的LSTM,双向LSTM)更好的精度。我在考虑基于(https://www.sciencedirect.com/science/article/pii/S0925231219301067)的字符级扩展实现双向LSTM或GRU

你认为这是前进的正确方向吗?在研究过程中,我了解到字符级的嵌入比单词级的嵌入效果更好,这取决于数据集(https://forums.fast.ai/t/when-are-character-embeddings-better-than-word-embeddings-and-vice-versa/3551/3

它是否也适用于新闻文章领域?我可能需要自己做这个实验,但在开始之前我需要一些建议


Tags: 方法https标准文章双向字符类别新闻