我有一个相当小的体育新闻文章语料库(大约10000篇),我试图将新闻文章分为与板球相关的文章、与足球相关的文章等子类别
我试图获得比标准基线方法(带CRF的LSTM,双向LSTM)更好的精度。我在考虑基于(https://www.sciencedirect.com/science/article/pii/S0925231219301067)的字符级扩展实现双向LSTM或GRU
你认为这是前进的正确方向吗?在研究过程中,我了解到字符级的嵌入比单词级的嵌入效果更好,这取决于数据集(https://forums.fast.ai/t/when-are-character-embeddings-better-than-word-embeddings-and-vice-versa/3551/3)
它是否也适用于新闻文章领域?我可能需要自己做这个实验,但在开始之前我需要一些建议
目前没有回答
相关问题 更多 >
编程相关推荐