当我运行Python代码时
import newspaper
print(len(newspaper.build('http://cnn.com', memoize_articles=False).articles))
exit()
在Python3中,我得到了897的输出(即newspaper3k在域http://cnn.com上找到了897个被认为是文章的页面),但是当我运行
import newspaper
print(len(newspaper.build('http://www.cnn.com', memoize_articles=False).articles))
exit()
(也就是说,再加上一个www.
;没有其他变化)我只得到895。当我在这两个URL之间来回切换时,这些数字是一致的。在URL中www.
实际上有意义吗?如果是这样,为什么在使用newspaper3k库时,这两个URL的文章数量变得如此相似?否则,为什么物品数量不完全相同
正如您在下面看到的,www'less资源中的几个url有两种变体:
www
www
结果:
相关问题 更多 >
编程相关推荐