python的通用自然语言处理任务

semantic3的Python项目详细描述


https://badge.fury.io/py/semantic.png

semantic是一个python库,用于从文本中提取语义信息,包括日期、数字、数学公式和单位转换。

对于这四种语义类型中的每一种,语义都提供了一个服务模块。典型用法通常如下:

#!/usr/bin/env python
from semantic.dates import DateService

service = DateService()
date = service.extractDate("On March 3 at 12:15pm...")
...

完整的文档可以在here上找到,而源代码本身也可以在GitHub上找到。

安装

安装语义很简单:

$ pip install semantic

功能

语义包含四个主要模块,每个模块对应一个不同的语义提取器。

日期(date.py

适用于:

  • 从文本片段中提取相对(如“一周后的今天”)和绝对(如“2013年12月11日”)日期。
  • 将日期对象转换为人类可用的短语。

数字(number.py

适用于:

  • 从文本片段中提取数字(整数或浮点数)。
  • 将数字转换为人类可读的字符串。

示例用法:

#!/usr/bin/env python
from semantic.numbers import NumberService

service = NumberService()

print service.parse("Two hundred and six")
# 206

print service.parse("Five point one five")
# 5.15

print service.parse("Eleven and two thirds")
# 11.666666666666666

print service.parseMagnitude("7e-05")
# "seven to the negative five"

数学(solver.py

用于执行以单词表示的数学运算。

示例用法:

#!/usr/bin/env python
from semantic.solver import MathService

service = MathService()

print service.parseEquation("Log one hundred and ten")
# 4.70048

单位(units.py

用于在以单词表示的单位之间进行转换。

示例用法:

#!/usr/bin/env python
from semantic.units import ConversionService

service = ConversionService()

print service.convert("Seven and a half kilograms to pounds")
# (16.534, 'lbs')

print service.convert("Seven and a half pounds per square foot to kilograms per meter squared")
# (36.618, 'kg/m**2')

测试

测试套件(test.py)包含四个模块的大量示例和用例。

要求

日期、数字和数学模块可以单独运行(即没有任何依赖关系),而units模块需要quantitiesNumpy

许可证

麻省理工学院Charles Marsh

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java将多个线程中的函数放入单个队列   数组在Java中,如何在不改变整数顺序的情况下找到整数组的顺序?   java控制器属于表示层?   java Apache Ivy和本地Maven repo如何处理使用Maven 3构建的快照   Java可与泛型类型进行比较   java这个表达式在泛型中是什么意思   JavaEclipse和TeamCity插件   java检测构造函数中的final是否为空   java如何在StanfordCoreNLP管道中同时使用词汇化和依赖性解析器?   java在AntUnit控制台日志中显示完整异常堆栈跟踪   lambda如何与Java 8供应商建立连锁关系   如何让GRPC的重试机制在Kubernetes集群中使用grpcjava工作?   如何使用openjdk:7 Docker映像和Gradle包装器避免“EC参数错误”?   java将集合映射扩展为一维映射新的“无法推断函数接口类型”