不使用spli计算字符串中的单词数

网友

1楼 · 编辑于 2024-04-27 02:35:15

最简单的有状态的有限自动机-字内或外。伪代码：

InsideWord = false
Count = 0
for c in s
    if c is not letter
               InsideWord = false 
    else
         if not InsideWord
               Count++
               InsideWord = true

网友

2楼 · 编辑于 2024-04-27 02:35:15

您还可以使用^{}，根据字符是否为字母数字分组，并将所有值相加（True等于1）。在

>>> s = "the sky is blue"
>>> sum(k for (k, g) in itertools.groupby(s, key=str.isalnum))
4

网友

3楼 · 编辑于 2024-04-27 02:35:15

计算空格数是一种很好的方法，在大多数情况下都有效。当然你得加1才能得到正确的字数。在

但是，由于您似乎关心格式不好的字符串，因此必须考虑多个空格、开头和结尾的空白以及标点符号。在

如果您不想使用正则表达式（如Ezsrac的答案），这里有一个替代方法，它将字符、数字和下划线的组合视为单词，就像\w一样。它只统计单词字符和非单词字符之间的所有转换。结尾需要特别注意结尾处的非单词字符（例如"a a "与"a a"）。在

def is_word_character(c):
    return 'a' <= c <= 'z' or 'A' <= c <= 'Z' or '0' <= c <= '9' or c == '_'

def word_count(str):
    c = 0
    for i in range(1, len(str)):
        if not is_word_character(str[i]) and is_word_character(str[i-1]):
            c += 1
    if is_word_character(str[-1]):
        c += 1
    return c

以下是一些测试用例：

^{pr2}$

如果您还想包含其他字符，您可以简单地扩展is_word_character函数，但是要知道，如果不使用非常先进的技术，就不可能考虑所有的角点情况。例如，{cd6>}。这样一个简单的程序不可能识别出第一个是复合形容词，而第二个是由两个连接不好的句子组成的。在

相关问题更多 >

编程相关推荐

热门问题

热门文章