从中文文本中提取摘要和关键词

FastTextRank的Python项目详细描述


#FastTextRank
从中文文本中提取摘要和关键字,使用*优化的迭代算法*提高运行**速度**,并*有选择地使用词向量*提高**准确性**。
PageRank
PageRank是来自Google的网站页面排名算法。<;br/>;
PageRank最初用于计算网页。整个www可视为一个有向图,而节点是一个网页。<;br/>;
此算法可以通过连接计算所有节点的重要性。<;br/>;
*我的算法更改了迭代算法,使算法更快,平均每篇文章花费10毫秒,而textrank4zh在我的数据上花费80毫秒。<;br/>;
*我的算法也使用word2vec使抽象更精确,但运行算法需要更多时间。在相同的传输数据上使用word2vec每篇文章需要花费40毫秒。

把文章切成句子
2。计算句子之间的相似度:
*使用词向量的余弦相似度
*使用两个句子的常用词
3。根据句子的相似性建立一个图表。通过改进的迭代算法计算每个句子的重要性
5。获取要使用的停止字文件的摘要。如果没有,你将使用这个包的停止词。BuyLo.W2V:BooLeaIn,缺省false
如果必须是,则必须输入传递的DATIOPATH参数。把Artile切成单词
2。计算单词之间的相似度:
如果两个单词都在窗口距离内,则这两个单词的图形边加1.0。窗口由用户设置。
3.根据单词‘similarity
4构建一个图表。通过改进的迭代算法计算每个单词的重要性
5。获取关键字

api
*use_stop word=boolean,default true
*stop_words_file=str,default none.
要使用的stop words文件。如果它不是,你将使用这个包的停止词。< BR/> *Max ITER =最大迭代回合
*窗口=int,默认值2 BR/>窗口以确定两个词是否相关。

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java JavaFX 11可编辑组合框引发IndexOutOfBoundsException   java选择数组中的数组元素   java我从来没有找到创建2D ArrayList的正确方法   java JPA查找orderById的顶部数据,并按字符串过滤Id   使用java在ejabberd中进行xmpp外部身份验证   从ajax调用向java传递点运算符   java如何使用ReadWriteLock   使用Spring控制器和jQueryAjax的java重定向   java使JFrame中的JPanel可滚动   java如何用多个。jar库?   java EditText在RecyclerView中失去了对滚动的关注   java为什么我们必须扩展Servlet或GenericServlet或HttpServlet来创建Servlet应用程序?如果不扩展,我们可以开发Servlet应用程序吗?   使用递归java查找数组中的最大值   具有不同字段数的html表单的java域传输对象   java文本视图扩展;不支持操作异常   java如何使用iText的HTMLWorker类将多语言HTML字符串呈现为PDF