预处理NIKL语料库文件

nikl的Python项目详细描述


NIKL

PythonPyPI
国立国语院

Installation

  • Pypi
    pip install nikl
    
  • Source Code
    git clone https://github.com/study-artificial-intelligence/nikl.git
    cd nikl
    python setup.py install
    

Requirements

  • beautifulsoup 4(pip install beautifulspul4设置)

Getting Started

    希望转换成
  1. 的国立国语院语言信息分享中心的语言交流词典./data请放入文件夹中。
  2. 请在
  3. 下面的指令中选择一个大括号(,)。但,{}必须有一个以上的文件名。
  4. 代码正常启动时,./data/文件夹中生成파일이름_info.txt,{}。
python main.py --filename [파일명.txt][--info][--content][--newline]# ex1) python preprocess.py --filename test.txt --content --newline#      test.txt에서 단락 내용만 개행문자를 포함해서 data/test_content.txt 파일 생성# ex2) python preprocess.py --filename test2.txt test3.txt --info --content#      text2.txt와 text3.txt에서 파일의 정보와 단락 내용을 각각 저장 후 data/test2_info.txt, test2_content.txt #                                                                    data/test3_info.txt, test3_content.txt 파일 생성
    请输入
  • filename:1个以上的文件名.txt格式。国立国语院马团文件特性上只支持txt文件。
  • info:显示该文件的전반적인 정보是否输出。基本值是False
  • content:显示该文件的내용是否输出。基本值是False
  • newline:在处理课文内容时,表示是否插入开行文字(“n”)。插入时按段落输出结果。基本值是False

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java JNLP无法在浏览器中正确启动(与dtjava.js一起部署)   在执行下一个方法之前,java将等待线程执行结束   java如何将另一个LayoutManager应用于JComboBox?(多栏JComboBox尝试)   使用jPBC在java中实现双线性配对   java在使用@RequestMapping注释时获取请求的值(URL)   java如何控制流量   java如何获取IFC对象的绝对坐标?   java目标服务器无法使用htmlunit和tor响应异常   java需要帮助创建一个循环结构来运行我的程序   java有可能拥有一个Android APK并在应用程序中更改构建变体吗?   在Sphinx4中运行Ant的java   Java:从ArrayList获取子列表的有效方法   java如何使在循环内部创建的数组在循环外部工作?   apache poi通过java中的XSSF表从单元格读取日期值   安卓 java自己的SeqLock实现,避免spinlock会更好吗?   java的并发底层方法。util。同时发生的预定未来   java比较方法违反了它的一般约定,如何使它具有可传递性?   使用JAVA定向指定类的DB导出子类   一个方法中的java更改特定imageView