用于构建streamcorpus对象的工具,如trec中使用的工具。
streamcorpus_pipeline的Python项目详细描述
streamcorpus管道是一个文档处理管道,用于汇编 来自原始数据集的streamcorpus对象。
streamcorpus_pipeline python模块包含用于处理的工具 streamcorpus.streamitem对象存储在块中。它包括 转换函数,用于获取clean_html、clean_visible、创建 从超链接到特定站点(如维基百科)的标签,以及 像lingpipe、serif和factorie这样的标记符,它们生成标记和 句子。
更多信息请访问[streamcorpus.org](http://streamcorpus.org/)