用于提取文件文本的数据挖掘工具
aTXT的Python项目详细描述
ATXT
从文件中提取文本。文本挖掘工具。
使用量
您可以将atxt与他的名称包一起使用,也可以在控制台中使用2xt。为了 例如,如果要显示帮助用法:
aTXT -h
2txt -h
此外,您还可以运行图形界面(使用pyside):
aTXT -i
你应该这样:
注意:atxt总是为每个文件路径生成一个文件。
示例:
$ 2txt prueba.html $ 2txt prueba.html -o $ 2txt --file ~/Documents/prueba.html $ 2txt --file ~/Documents/prueba.html --to ~/htmls
在深度超过~::
的二级中搜索所有可文本文件$ 2txt ~ -d 2 $ 2txt --path ~ -d 2 --format 'txt,html'
安装
pip install atxt
检查相关性以避免意外:
aTXT --check
要求
由于其他开源项目,此软件可用。这个 下面的列表列出了一些更难安装的组件:
- pyside(gui lib)
- 细分OCR
- xpdf
- Scandir(快速传送个人文件夹)
meta
- 作者:Jonathan S.Prieto C.
- 电子邮件:prieto.jona@gmail.com
- 注:有反馈吗?请给我发一封电子邮件。
- 免费软件:BSD许可证