skimmr库和scipts,用于机器辅助的skim阅读(生物医学文本的特定包版本)

skimmr_bm的Python项目详细描述


==============================
浏览BM-简要概述
============================== < BR>
-
有关详细信息,请联系vit.novacek@deri.org
- < BR>
0。摘要和目录
================================= < BR>
本文档提供有关skimmr(一种用于
机器辅助略读),尤其是其略读包版本
关注生物医学文本。 < BR>
文档包含三个部分: < BR>
1.关于-工具及其功能概述 < BR>
2.安装-关于如何安装skimmr的基本说明 < BR>
3.使用skimmr-安装后如何使用的基本说明 < BR>
1.关于
======== < BR>
skimmr是一个研究原型,旨在帮助用户浏览
大量文本数据有效。这是通过扩展
传统的文本集合搜索和浏览模式。斯基姆
让用户通过浏览概念和关系网络浏览文本
显式或隐式地存在于其中。概念及其关系
使用新机器从文本内容中提取和推断
为skimmr后端提供动力的阅读技术。 < BR>
互联的"撇油网络"提供了
文本覆盖的域,让用户快速发现有趣的内容
一些信息。这一过程也大大减轻了
筛选大量不相关的资源,这通常是不利的
使用标准搜索引擎。当用户发现
在高级概述中,他们可以继续阅读
详细介绍相关文本资源。 < BR>
这一特定版本的skimmr(skimmr_bm)侧重于生物医学文章
在PubMed上提供。skimmr接口公开的知识库是
摘自PubMed摘要(有关
详细信息)。一旦用户完成浏览,即浏览
从PubMed文章中提取的概念和关系,很容易
浏览并阅读相关出版物。这是使用嵌入式
发布结果的窗口,主要关注与
浏览数据时发现的概念。举例说明
下节将介绍skimmr的工作方式。 < BR>
2.安装
=============== < BR>
安装skimmr_bm的最简单方法可能是使用easy_install: < BR>
*安装简单* < BR>
查看http://peak.telecommunity.com/devcenter/easyinstall上的文档
有关简易安装和设置工具的详细信息。 < BR>
如果希望手动下载并安装软件包,请获取
首先浏览BM分发存档文件。打开包装后,切换到
生成目录并执行以下命令: < BR>
*python setup.py安装* < BR>
如果要在本地安装软件包(仅限当前用户),请使用
以下内容: < BR>
*python setup.py安装--用户* < BR>
查看http://docs.python.org/2/distutils/index.html上的文档
更多详细选项。 < BR>
3.使用SKIMMR
=============== < BR>
下载并安装skimmr软件包后,即可使用
以基本方式通过提供的脚本。这些是: < BR>
-dwnl_bm.py-下载要处理的PubMed摘要 < BR>
-exst_bm.py-从文本中提取共现语句 < BR>
-crkb_bm.py-通过语义创建知识库及其总体
相似关系 < BR>
-ixkb_bm.py-为有效查询建立知识库索引 < BR>
-prep_bm.py-准备子文件夹结构和资源
启动skimmr服务器所需的工作目录 < BR>
-srvr_bm.py-启动skimmr服务器和用户界面 < BR>
脚本位于安装包的*bin*子目录中。
或者,您可以从系统放置python包的任何位置复制它们
二进制文件(查看操作系统和本地文件
python实现)。 < BR>
以下各节总结了使用这些脚本的典型方法。
请注意,还有其他方法可以启动脚本-您可以检查
有关详细信息,请参阅脚本源代码中的文档。 < BR>
3.1创建工作目录
< BR>
首先,skimmr需要一个地方来存储和处理其数据。创建一个
某个地方的目录(假设在
以下)。切换到该目录,然后复制所有skimmr_bm脚本
那里。在那之后,跑 < BR>
*python准备* < BR>
在里面。这将生成三个子目录,*data*,*lingpipe*和
*文本*,以及*数据*中更深的一些文件和目录。
默认情况下,lingpipe文本挖掘软件由该脚本下载,
因为这是以后提取生物医学知识的首选方法
打开。你可以跳过这个,但是,你需要将lingpipe软件复制到
然后您自己使用*lingpipe*目录,或者使用一般知识提取
内置于撇渣器系统中的管道(参见文档中的详细选项
在脚本源中)。 < BR>
3.2从PubMed下载摘要
--- < BR>
skimmr_bm是专门用来处理通过
PubMed存储库。放置一个或多个扩展名为*.pmid*的文件后
在*skimmr*目录中的*text*文件夹中,该工具可以自动
下载与提供的pubmed标识符对应的所有摘要
在*.pmid*文件中(除以任意空格字符序列或
逗号)。这是通过运行以下命令来完成的 < BR>
*python dwnl_bm.py电子邮件* < BR>
其中电子邮件是您的电子邮件(用于
从pubmed获取文章数据。 < BR>
3.3文本处理
-- < BR>
如果您还没有根据之前的id下载pubmed摘要
步骤,将要处理的本地存储的摘要文件复制到
*文本*折页r在*skimmr*目录中。纯文本文件(ascii或unicode格式
格式)受支持,扩展名为*.txt*。注意文件名
应该是相应文章的pubmed id(加上*.txt*
扩展),否则以后在skimmr中查找源文章将不会
产生任何有意义的结果。 < BR>
所有文本就绪后,运行 < BR>
*巨蟒出口* < BR>
在*skimmr*目录中。这将把课文分成段落
从中提取共现语句。有一个限制
在exst.py脚本中动态生成的语句数
从可用内存计算(如果psutil包设置为750000
在您的系统上不可用。使用skimmr时可以更改
库直接运行。 < BR>
3.4创建知识库
- < BR>
在上一步中生成共现语句后,您可以
使用 < BR>
*python crkb_bm.py创建* < BR>
它将在*stre中生成两个知识库持久性文件*
位于*skimmr*根文件夹中的*data*目录的子文件夹。 < BR>
3.5计算相似性
---- < BR>
生成知识库后,可以通过计算来扩充它
更频繁的术语之间的语义相似关系
高于平均水平: < BR>
*巨蟒crkb_bm.py compsim* < BR>
这将相应地更新知识库持久性文件。注意
对于更大的知识库,此步骤可能需要几个小时! < BR>
3.6索引知识库
- < BR>
在通过skimmr Web界面公开处理过的内容之前,您
必须索引知识库。这是通过跑步来完成的 < BR>
*蟒蛇ixkb_bm.py* < BR>
它将在知识库持久性中生成两个索引文件
子目录。 < BR>
3.7启动和使用服务器
< BR>
最后,您可以通过 < BR>
*巨蟒srvr_bm.py* < BR>
这将在本地主机(127.0.0.1)和端口8008上启动服务器。你可以
通过将服务器运行为 < BR>
*python srvr_bm.py地址:端口* < BR>
此外,还可以指定要由服务器加载的备用存储(有用
如果要检查以前生成的多个存储: < BR>
*python srvr_bm.py[地址:端口][文件夹]* < BR>
其中folder是要加载的存储的路径。 < BR>
启动skimmr服务器后,您可以将浏览器指向
相应的地址和端口,并开始使用工具,如
*关于*可从skimmr界面访问的网页(只需按照链接
在skimmr web界面的每个页面底部)。

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
带truezip的java拆分zip   java Spring,AppEngine:在AppEngine的数据源中添加postgresql url   java Android coverflow   java以编程方式创建复合过滤器,以在log4j 2中定义多个过滤器   java jpa eclipselink异常[eclipselink 4002]   中的java WordNet数据库目录相对路径。罐子   java无法在Spring Boot 2/3中显示登录的用户   java Onetomany:未找到联接表错误   java数据模型演化   java方法在类型列表中添加的(对象)不适用于参数(int)意味着什么?   用java打印两个数组   java SNMP4J发送从不超时   java添加/删除联系人(EditText)+类别(SpinnerBox),可以根据需要动态添加/删除多个联系人   语句和PreparedStatement之间的java差异   java在运行作为JAR归档文件分发的项目时加载图像等资源   来自应用程序或外部服务器的java Cron作业   多线程Java并发:并发添加和清除列表项   java更改单元测试的私有方法行为