GISMO是一个NLP工具,用于根据查询对文档进行排序和组织。
gismo的Python项目详细描述
用它自己的思维搜索一般的信息!在
GISMO是一个NLP工具,用于根据查询对文档进行排序和组织。在
Gismo代表通用信息搜索…有自己的想法。在
- 自由软件:GNU通用公共许可证v3
- Github:https://github.com/balouf/gismo。在
- 文档:https://gismo.readthedocs.io。在
特点
Gismo结合了三个主要思想:
- TF-IDTF:TF-IDF嵌入的对称版本。在
- didition:PageRank算法的快速、基于推送的变体。在
- Fuzzy树状图:鲁汶聚类算法的变体。在
快速启动
安装gismo:
$ pip install gismo
在Python项目中导入gismo:
^{pr2}$要了解典型Gismo工作流的窍门,可以查看Toy Example笔记本。对于更高级的用途, 看另一个tutorials或直接看reference部分。在
学分
托马斯·博纳尔,安妮·鲍亚尔,马克·奥利维尔·布伯,多希·洪。在
{a12}是用这个包创建的。在
历史
十、 X.X(待办事项列表)
- 重新考虑向量规范化和IDTF/query权衡的失真。在
- 加速聚类中的相似性计算(目前基于sklearn)。在
0.4.1(2020-11-25)
次要更新。在
- 修改后的dblpapi可以指定要检索的字段集。在
- 医生的小更新。在
- 增加了Python3.9兼容性。在
0.4.0(2020-07-21)
0.4是一个很大的更新。很多事情都增加了,很多事情都改变了。在
- 用于Gismo运行时参数的新API(有关详细信息,请参阅New parameters模块)。短版:
- gismo = Gismo(corpus, embedding, alpha=0.85):创建一个阻尼因子设置为0.85而不是默认值的gismo。在
- gismo.parameters.alpha = 0.85:将gismo的阻尼因子设置为0.85。在
- gismo.rank(query, alpha=0.85):进行阻尼因子临时设置为0.85的查询。在
- 地标!半语料库,半Gismo,Landmarks类可以简化许多分析任务。
- 地标是(小的)语料库,其中每个条目都通过一个相关的gismo查询的计算进行扩充
- 地标可以用来完善你的部分数据的分析
- 它们可以用作软分类器和快速分类器。在
- Landmarks的运行时参数采用与Gismo实例相同的方法(参见上文)。在
- 查看专用教程了解更多!在
- 文件夏季清洁。在
- query_distortionparameter(为集群重塑子空间)被重命名为distortion,现在是一个浮点而不是bool(例如,可以以非二进制的方式应用失真)。在
- 完全重构get\***和post\***方法和对象。
- 好消息是他们现在更自然,自我描述和统一。在
- 坏消息是,与以前的Gismo版本没有向后兼容。希望这次重构 会持续一段时间的!在
- 添加了吉斯莫标志!在
0.3.1(2020-06-12)
- 新数据集:路透社C50
- 新模块:量刑器
0.3.0(2020-05-13)
- dblp模块:添加了url2source函数来直接在内存中加载一个小的dblp源,而不是使用FileSource方法。在
- 可以在gismo中禁用查询失真。在
- 跨类分析gismo。在
- 更新教程
0.2.5(2020-05-11)
- 自动功能:如果未指定,则为查询相关的合理数字对结果k进行了估计。在
- 添加到gismo的覆盖方法。现在可以使用get_covering_ux代替get_ranged_u*来最大化覆盖率和/或消除冗余。在
0.2.4(2020-05-07)
- 添加了ACM和DBLP教程。清洁后,目前有3个教程:
- 玩具模型,想从一个小小的例子中了解吉斯莫的诀窍
- ACM,和Gismo玩一个小例子
- DBLP,用于处理大型数据集。在
0.2.3(2020-05-04)
- 添加了ACM和DBLP数据集创建。在
0.2.2(2020-05-04)
- 添加笔记本教程(早期版本)
0.2.1(2020-05-03)
- 实际代码
- 保险徽章
0.1.0(2020-04-30)
- PyPI的第一个版本。在
- 项目
标签: