用于构建streamcorpus对象的工具,如trec中使用的工具。

streamcorpus_pipeline的Python项目详细描述


streamcorpus管道是一个文档处理管道,用于汇编 来自原始数据集的streamcorpus对象。

streamcorpus_pipeline python模块包含用于处理的工具 streamcorpus.streamitem对象存储在块中。它包括 转换函数,用于获取clean_html、clean_visible、创建 从超链接到特定站点(如维基百科)的标签,以及 像lingpipe、serif和factorie这样的标记符,它们生成标记和 句子。

更多信息请访问[streamcorpus.org](http://streamcorpus.org/

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java如何将weblogic的部署模式设置为nostage?   使用流API的java自定义操作   java为REST API生成YAML或JSON文件   java泛化UI组件   java将动态参数传递给@MapKey(“${dynamicParam}”)(MyBatis)   java Velocity工具向后兼容性?   java java数据库可以使用SQL语句吗?   java jsp表单文本+文件处理   java如何构建真正本地的ApacheSpark“胖”jar。JRE内存问题?   java我可以将@Transactional注释放在实体类中吗?   cmd在打开java时立即打开和关闭   java如何使用Streams API将实体列表映射到只有唯一列的单个实体?   java在WindowCloseOnTouchOut时执行函数   swing让java颜色不那么暗?   将spring与jsf结合使用时的java BeanInstationException