在Python中将文件中的行、字符和单词作为一个整体进行计数的首选方法

2条回答

网友

1楼 · 编辑于 2024-04-25 18:06:51

创建几个测试文件，并在一个大循环中测试它们，以查看平均时间。确保测试文件符合您的场景。你知道吗

我用了这个代码：

import glob
import time

times1 = []
for i in range(0,1000):
    names = {} 
    t0 = time.clock()
    with open("lines.txt") as f:
        names["lines.txt"] = sum(1 for line in f if line.strip())
        print names
    times1.append(time.clock()-t0)

times2 = []
for i in range(0,1000):
    names = {} 
    t0 = time.clock()
    data = open("lines.txt", 'r').read()
    print("lines.txt",len(data.splitlines()), len(data.split()), len(data))

    times2.append(time.clock()-t0)


print sum(times1)/len(times1)
print sum(times2)/len(times2)

得出了平均时间： 0.0104755582104和 0.0180650466201秒

这是一个23000行的文本文件。例如：

print("lines.txt",len(data.splitlines()), len(data.split()), len(data))

输出：（'行.txt'、23056、161392、1095160）

在实际的文件集上进行测试，以获得更准确的计时数据。你知道吗

网友

2楼 · 编辑于 2024-04-25 18:06:51

使用生成器表达式提高内存效率（这种方法可以避免将整个文件读入内存）。这是一个演示。你知道吗

def count(filename, what):
    strategy = {'lines': lambda x: bool(x.strip()),
                'words': lambda x: len(x.split()),
                'chars': len
    }

    strat = strategy[what]
    with open(filename) as f:
        return sum(strat(line) for line in f)

你知道吗输入文件地址：

this is
a test file
i just typed

输出：

>>> count('input.txt', 'lines')
3
>>> count('input.txt', 'words')
8
>>> count('input.txt', 'chars')
33

请注意，计数字符时，换行符也会被计数。还要注意的是，它使用了一个相当粗糙的“word”定义（您没有提供），它只是按空格分割一行，并统计返回列表的元素。你知道吗

相关问题更多 >

编程相关推荐

热门问题

热门文章

在Python中将文件中的行、字符和单词作为一个整体进行计数的首选方法

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >