用于构建streamcorpus对象的工具,如trec中使用的工具。

streamcorpus_pipeline的Python项目详细描述


streamcorpus管道是一个文档处理管道,用于汇编 来自原始数据集的streamcorpus对象。

streamcorpus_pipeline python模块包含用于处理的工具 streamcorpus.streamitem对象存储在块中。它包括 转换函数,用于获取clean_html、clean_visible、创建 从超链接到特定站点(如维基百科)的标签,以及 像lingpipe、serif和factorie这样的标记符,它们生成标记和 句子。

更多信息请访问[streamcorpus.org](http://streamcorpus.org/

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
ByteArrayOutputStream的java解码属性   java S3 SDK在上载时更新单个对象,而不是创建新文件   java hibernate:无法从eclipse连接到DB   java如何在强制转换JComboBox之前检查其类型?   http从Java中的GETPOST请求方法捕获URI、资源名称,如开发人员工具中所示   java在Spring@Bean方法中返回接口的局限性   Java中的Web服务和客户端(使用Eclipse Apache Axis 2自底向上服务)某些代码会引发异常   java spring安全+rest不起作用   java将LinkedList添加到包含LinkedList的LinkedList并更改添加的LinkedList   java是否临时删除对象的属性?   java使用AnimatedGifEncoder类创建的gif图像的部分帧是不透明的   java如何高效地处理maven3时间戳快照?   java向集合对象添加另一项   java如何将动态参数传递给jquery函数   java使用libGdx桌面端口作为Android GLES20的仿真器