在Python中使用urllib2,我可以指定在对输入采样之前它在文档中迭代多少行吗?

2024-04-23 16:29:36 发布

您现在位置:Python中文网/ 问答频道 /正文

我有一个Python任务,它围绕着使用免费的Gutenberg库测试各种训练和任务来分析jacklondon编写的文本《野性的呼唤》。根据古腾堡的政策,在书的实际内容之前和之后都有一个许可条款信息。你知道吗

我的作业包括读台词,计算人声和其他杂七杂八的东西的数量,但是随着许可证条款被读入剧本,意味着我将读更多的台词,超过我应该读的。你知道吗

我是否可以使用liburl2模块来指定何时开始读取行(比如说,20000个字符之后),以及在读取300000个字符之后关闭文件读取过程?这样,我将避免包括许可证条款,我的答案不会出错。你知道吗

文件在这里:http://www.gutenberg.org/cache/epub/215/pg215.txt

提前谢谢!你知道吗


Tags: 文件文本信息内容数量作业政策条款