从字符串中提取数字
nums-from-string的Python项目详细描述
字符串中的数字
这个python模块提供了获取输入字符串中的数字或数字字符串标记的函数。
捕获文本中的数字是从文档中检索数字信息的常见预处理。然而,由于这些数字的各种表示形式,使用简单的规则捕获它们有些困难。我们在这个库中打包了几个覆盖范围广泛的regex规则,希望它能成为nlp研究人员的有用工具。
安装
pip install nums_from_string
用法
- 从字符串中提取数字
>>>string1="U.S. goods and services trade with China totaled an estimated $710.4 billion in 2017. ">>>nums_from_string.get_nums(string1)[710.4,2017]>>>string2="David spent .25 billion dollars buying a building and 600,000.5 dollars getting himself a car.">>>nums_from_string.get_nums(string2)[0.25,600000.5]
- 从字符串中提取数字字符串
>>>string1="U.S. goods and services trade with China totaled an estimated $710.4 billion in 2017. ">>>nums_from_string.get_numeric_string_tokens(string1)['710.4','2017']>>>string2="David spent .25 billion dollars buying a building and 600,000.5 dollars getting himself a car.">>>nums_from_string.get_numeric_string_tokens(string2)['.25','600,000.5']>>>string3="Find the product of 4 and -5?">>>nums_from_string.get_numeric_string_tokens(string3)['4','-5']>>>string4="The flight number is Airbus A330-300">>>nums_from_string.get_numeric_string_tokens(string4,no_minus=True)['330','300']
- 将字符串转换为数字
>>>s0="255">>>nums_from_string.to_num(s0)255>>>s1="-255,000.0">>>nums_from_string.to_num(s1)-255000.0>>>s2="87/25">>>nums_from_string.to_num(s2)Fraction(87,25)>>>s3="a1b2">>>nums_from_string.to_num(s3)Traceback(mostrecentcalllast):...ValueError:Invalidnumericalstring!
待办事项
- []捕获字符串中分数的模式
- []捕捉这样的模式“-3.5/11”
参考
许可证
这个项目是根据麻省理工学院的许可条款授权的。