用于语义字符串相似性的cli
simil的Python项目详细描述
语义字符串相似性cli
simil
是^{en_vectors_web_lg
数据集比较字符串的英语语义相似性。给定两个单词、短语或句子,simil
将告诉您它们的含义有多相似
安装
首先安装simil
本身:
$ pip3 install --user -U simil
现在安装spacy的一个web矢量模型:
$ python3 -m spacy download en_vectors_web_lg
您可以在en_vectors_web_lg
、en_core_web_lg
和en_core_web_md
之间进行选择,(en_core_web_sm
根本不包括字向量,并且不能与simil
一起使用。)simil
将使用您安装的最大模型,首选vectors
模型而不是core
模型。
我建议使用大向量模型(en_vectors_web_lg
),但为了节省磁盘空间或内存使用,您可能需要使用较小的模型
用法:
$ sim first_file.txt second_file.txt # compare two files $ sim -s "first string""second string"# compare two strings
输出是一个介于0和1之间的数字,表示这两个字符串的相似程度。
详细信息:
simil
使用spacy用^{
这可能是一个大数据集,这会导致启动时间过长。因此simil
在后台剥离一个进程来保存模型,并在客户机-服务器模型下使用它。这意味着,如果连续运行simil
多次,则只有第一次运行比较慢。
这个后台进程确实占用了相当多的内存,通常大约2GB(对于en_vectors_web_lg
模型)。不活动10分钟后,它将自动被终止,以避免无限期占用内存。您可以使用--timeout
标志更改此超时的长度。