阿拉伯语停止词:列表和routins
Arabic-Stopwords的Python项目详细描述
说明
要确定停止语并不容易,反之亦然 根据情况不同,为此目的,我们建议 可由开发人员参数化的列表。在
单词表只包含其公共形式的wond,我们有 由脚本生成所有表单。在
它可以用作库“参阅arabicstopwords库”
文件
- data/:包含停止字的数据
- 数据/分类/停止字.ods:LibreOffice格式的数据 有价值的信息和分类的停止语
- 文档:文档文件
- 脚本:用于生成所有表单和文件格式的脚本
##数据结构
所有表单data.ODS/CSV文件-第一个字段:未定位的单词(في)-第二个字段 字段:词缀之间带有“-”的词干不明确的单词:例如。 ف-ب-خمسين-ي
停止语示例
最小分类数据.ODS/CSV文件-第一个字段:未定位的单词( في)-第二个字段:单词的类型:例如,حПف-第三个字段:单词类别 :例如介词
其他领域的词缀信息:-第4个字段:阿拉伯语的AIN,
if word accept Conjuction‘العطف','*'else-第五个字段:TEH in
阿拉伯语,如果单词accept,则定义冠词“اللتعНيف”,“*”else-6th
字段:JEEM在阿拉伯语中,如果单词接受介词冠词'
المتلة','*'其他
-第7个字段:阿拉伯语中的DAD,如果单词accept IDAFA articles'
المتلة','*'其他
接受第七个动词的变化
'
-第8栏:阿拉伯语中的LAM,如果单词accept LAM QASAM articles'لام
القسم','*'其他-第8个字段:MEEM(阿拉伯语),如果单词的定义是ALEF LAM
文章“معПف”,“其他”
如何自定义停止字列表
检查最小表单数据文件(停止字.csv)在
在用“#”来评论所有你不需要的词
在跑
make
在捕获releases文件夹中脚本的输出。在
在
如何更新数据
检查最小表单数据文件中是否不存在该单词( 分类/停止字.ods)在
在添加附加信息
在跑
make
在捕获releases文件夹中脚本的输出。在
在
阿拉伯文叠词库
安装
pip install arabicstopwords
用法
测试单词是否停止
>>>importarabicstopwords.arabicstopwordsasstp>>># test if a word is a stop...stp.is_stop(u'ممكن')False>>>stp.is_stop(u'منكم')True
在词干一个停止字``python>;>;word=u“لعلهم”>>; stp.停止阀杆(文字)u'لعل'
在
* list all stop words stp.stopwords\_list() ...... len(stp.stopwords\_list()) 13629 len(stp.classed\_stopwords\_list()) 507 \`\`\` \* give all forms of a stopword
>>>stp.stopword_forms(u"على")....>>>len(stp.stopword_forms(u"على"))144
- 项目
标签: