GISMO是一个NLP工具,用于根据查询对文档进行排序和组织。

gismo的Python项目详细描述


Gismo logo

用它自己的思维搜索一般的信息!在

https://img.shields.io/pypi/v/gismo.svghttps://img.shields.io/travis/balouf/gismo.svgDocumentation StatusCode Coverage

GISMO是一个NLP工具,用于根据查询对文档进行排序和组织。在

Gismo代表通用信息搜索…有自己的想法。在

特点

Gismo结合了三个主要思想:

  • TF-IDTF:TF-IDF嵌入的对称版本。在
  • didition:PageRank算法的快速、基于推送的变体。在
  • Fuzzy树状图:鲁汶聚类算法的变体。在

快速启动

安装gismo:

$ pip install gismo

在Python项目中导入gismo:

^{pr2}$

要了解典型Gismo工作流的窍门,可以查看Toy Example笔记本。对于更高级的用途, 看另一个tutorials或直接看reference部分。在

学分

托马斯·博纳尔,安妮·鲍亚尔,马克·奥利维尔·布伯,多希·洪。在

{a12}是用这个包创建的。在

历史

十、 X.X(待办事项列表)

  • 重新考虑向量规范化和IDTF/query权衡的失真。在
  • 加速聚类中的相似性计算(目前基于sklearn)。在

0.4.1(2020-11-25)

次要更新。在

  • 修改后的dblpapi可以指定要检索的字段集。在
  • 医生的小更新。在
  • 增加了Python3.9兼容性。在

0.4.0(2020-07-21)

0.4是一个很大的更新。很多事情都增加了,很多事情都改变了。在

  • 用于Gismo运行时参数的新API(有关详细信息,请参阅New parameters模块)。短版:
    • gismo = Gismo(corpus, embedding, alpha=0.85):创建一个阻尼因子设置为0.85而不是默认值的gismo。在
    • gismo.parameters.alpha = 0.85:将gismo的阻尼因子设置为0.85。在
    • gismo.rank(query, alpha=0.85):进行阻尼因子临时设置为0.85的查询。在
  • 地标!半语料库,半Gismo,Landmarks类可以简化许多分析任务。
    • 地标是(小的)语料库,其中每个条目都通过一个相关的gismo查询的计算进行扩充
    • 地标可以用来完善你的部分数据的分析
    • 它们可以用作软分类器和快速分类器。在
    • Landmarks的运行时参数采用与Gismo实例相同的方法(参见上文)。在
    • 查看专用教程了解更多!在
  • 文件夏季清洁。在
  • query_distortionparameter(为集群重塑子空间)被重命名为distortion,现在是一个浮点而不是bool(例如,可以以非二进制的方式应用失真)。在
  • 完全重构get\***和post\***方法和对象。
    • 好消息是他们现在更自然,自我描述和统一。在
    • 坏消息是,与以前的Gismo版本没有向后兼容。希望这次重构 会持续一段时间的!在
  • 添加了吉斯莫标志!在

0.3.1(2020-06-12)

  • 新数据集:路透社C50
  • 新模块:量刑器

0.3.0(2020-05-13)

  • dblp模块:添加了url2source函数来直接在内存中加载一个小的dblp源,而不是使用FileSource方法。在
  • 可以在gismo中禁用查询失真。在
  • 跨类分析gismo。在
  • 更新教程

0.2.5(2020-05-11)

  • 自动功能:如果未指定,则为查询相关的合理数字对结果k进行了估计。在
  • 添加到gismo的覆盖方法。现在可以使用get_covering_ux代替get_ranged_u*来最大化覆盖率和/或消除冗余。在

0.2.4(2020-05-07)

  • 添加了ACM和DBLP教程。清洁后,目前有3个教程:
    • 玩具模型,想从一个小小的例子中了解吉斯莫的诀窍
    • ACM,和Gismo玩一个小例子
    • DBLP,用于处理大型数据集。在

0.2.3(2020-05-04)

  • 添加了ACM和DBLP数据集创建。在

0.2.2(2020-05-04)

  • 添加笔记本教程(早期版本)

0.2.1(2020-05-03)

  • 实际代码
  • 保险徽章

0.1.0(2020-04-30)

  • PyPI的第一个版本。在

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java如何在构造函数外部添加鼠标侦听器   java如何使用比较器对列表进行排序以正确排序空值?   javajavax。由于javax,邮件“535.7.3身份验证失败”。邮件升级(v1.3.1至v1.5.2)   java将arraylist流到固定的二维数组中并打印?   RecyclerView适配器上的java上下文   java如何为此Twitter API为KafkaProducer建立连接   java Spring安全性重写WebSecurity配置适配器的配置(AuthenticationManagerBuilder)是否会影响全局应用程序?   线程“awteventque0”NullPointerException中的java异常   if条件中的null值和null指针异常java   java树集<Object>允许相同类型的多个对象   java定义类;我认不出   字符串java replaceAll()   JAVAutil。scanner(Java)读取文件时如何跳过空格?   java在swing中关闭flash屏幕   java在Wildfly 16中的应用程序中加载pk12文件   有没有工具可以自动生成屏幕抓取的Java代码   创建意图时,java方法getParcelableExtra()返回null   将数据从java传递到jsp   java Android Studio |永久保存布局