预处理NIKL语料库文件
nikl的Python项目详细描述
NIKL
Installation
- Pypi
pip install nikl
- Source Code
git clone https://github.com/study-artificial-intelligence/nikl.git cd nikl python setup.py install
Requirements
- beautifulsoup 4(
pip install beautifulspul4
设置)
Getting Started
-
希望转换成
- 的国立国语院语言信息分享中心的语言交流词典
./data
请放入文件夹中。
请在 - 下面的指令中选择一个大括号(,)。但,{
}必须有一个以上的文件名。 - 代码正常启动时,
./data/
文件夹中生成파일이름_info.txt
,{}。
python main.py --filename [파일명.txt][--info][--content][--newline]# ex1) python preprocess.py --filename test.txt --content --newline# test.txt에서 단락 내용만 개행문자를 포함해서 data/test_content.txt 파일 생성# ex2) python preprocess.py --filename test2.txt test3.txt --info --content# text2.txt와 text3.txt에서 파일의 정보와 단락 내용을 각각 저장 후 data/test2_info.txt, test2_content.txt # data/test3_info.txt, test3_content.txt 파일 생성
-
请输入
- filename:1个以上的文件名.txt格式。国立国语院马团文件特性上只支持txt文件。
- info:显示该文件的전반적인 정보是否输出。基本值是False
- content:显示该文件的내용是否输出。基本值是False
- newline:在处理课文内容时,表示是否插入开行文字(“n”)。插入时按段落输出结果。基本值是False
- 项目
标签: