小数据文件或大数据文件的文本处理功能
textTin的Python项目详细描述
texttinypy
texttinypy包由用于小数据文件或大数据文件的文本处理函数组成。源代码基于C++ 11,用Python用Cython包起来。它在Linux(Debian)上使用Python2.7进行测试,目前有一个限制:
- 不支持中文、日语、韩语、泰语或具有模糊词边界的语言。
texttinypy的功能在blog post
每个类的参数的详细信息可以在包documentation
只有满足/安装以下要求,软件包才能正常工作:
系统要求:
- boost(boost >= 1.55)
- armadillo(armadillo >= 0.7.5) <> ^ ^ { STR 1 } $c++ 11 < <强>编译器
- OpenMP用于并行化(可选)
python要求:
- cython>;=0.23.5
- pandas>;=0.21.0
- scipy>;=0.13.0
- numpy>;=1.11.2
- 未来>;=0.15.2
可以使用以下命令从pypi安装包:
pip安装文本类型
要升级,请使用
pip安装-u texttinypy
使用以下链接报告错误/问题,https://github.com/mlampros/textTinyPy/issues
在Linux上安装系统要求(Debian):
安装需要gcc-4.8或更新版本(可以在控制台中使用:gcc–version)进行检查)。
如果gcc大于4.8,继续步骤1。否则转到步骤2。
1.:安装gcc-4.9和g++-4.9
sudo add apt repository ppa:ubuntu-toolchain-r/test-y
sudo apt get更新
sudo apt get安装gcc-4.9
sudo apt get安装g++-4.9
sudo更新备选方案–安装/usr/bin/gcc gcc/usr/bin/gcc-4.9 90
sudo更新替代品–安装/usr/bin/g++g++/usr/bin/g++-4.9 90
sudo更新备选方案–安装/usr/bin/gcov gcov/usr/bin/gcov-4.9 90
2.:安装boost版本1.55(包括boost语言环境和boost系统)
sudo add apt repository ppa:boost latest/ppa-y
sudo apt get更新
sudo apt get install libboost1.55-dev libboost-filesystem1.55-dev libboost-locale1.55-dev
3.:犰狳的安装(包括Debian和Fedora的要求)
犰狳需求–仅Debian
sudo apt get安装cmake libopenblas dev libblas dev libarpack++2-dev liblapack dev
犰狳需求–仅限Fedora
Yum安装cmake openblas devel lapack devel arpack devel superlu devel
armadillo安装版本7.600.2
工作组http://sourceforge.net/projects/arma/files/armadillo-7.600.2.tar.xz
tar xf犰狳-7.600.2.tar.xz
犰狳-7.600.2/
克马克。
制作
sudo make安装