波斯语自然语言推理数据集
farstail的Python项目详细描述
波斯语自然语言推理数据集FarsTail
自然语言推理(NLI)又称文本蕴涵,是自然语言处理中的一项重要任务,其目标是确定前提p和假设h之间的推理关系。这是一个三类问题,其中每对(p,h)被分配到其中一个类中:如果可以从前提推断出假设,则称为“蕴涵”,如果假设与前提相矛盾,则为“矛盾”;如果上述假设均不成立,则为“中立”。
英语中有大量的数据集,如SNLI、MNLI和SciTail,但是对于像波斯语这样的劣质数据语言,几乎没有数据集。 波斯语(波斯语)是伊朗、阿富汗和塔吉克斯坦等国约1.1亿人所说的一种多中心语言。这里,我们为NLI任务提供了第一个相对大型的波斯语数据集FarsTail。共有10367个样本来自3539个选择题。训练、验证和测试部分分别包括7266、1537和1564个实例。
软件包入门
我们提供了一个python包形式的API,以便于波斯语和非波斯语研究人员阅读和使用FarsTail。在下面,我们将解释如何使用这个包。
您需要Python3.6或更高版本。在
安装
pip install farstail
使用
- 正在加载原始FarsTail数据集。在
- 正在加载索引的FarsTail数据集。在
fromfarstail.datasetsimportfarstailtrain_ind,val_ind,test_ind,dictionary=farstail.load_indexed_data()
- 项目
标签: