如何优化Mongo中按日期查询的性能

1 投票
1 回答
3083 浏览
提问于 2025-04-18 18:21

我有一个包含60万份文档的集合。这些文档大多数都是下面这种结构,

{
    "_id" : ObjectId("53d86ef920ba274d5e4c8683"),
    "checksum" : "2856caa9490e5c92aedde91330964488",
    "content" : "<!DOCTYPE html PUBLIC \"-//W3C//DTD XHTML 1.0 Transitional//EN\" \"http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd\">\r\n<html xmlns=\"http://www.w3.org/1999/xhtml\" xml:lang=\"bn-bd\" lang=\"bn-bd\" dir=\"ltr\" " />\n  <link rel=\"stylesheet\" href=\"/templates/beez_20/css/position.css\" type=\"text/css\" media=\"screen,projection\ef=\"/index.php/bn/contact-bangla/2013-0</body>\r\n</html>",
    "date" : ISODate("2014-07-29T15:57:11.886Z"),
    "filtered_content" : "",
    "indexed" : true,
    "category": 'raw',
    "link_extracted" : 1,
    "parsed" : true,
    "title" : "Constituency 249_10th_En",
    "url" : "http://www.somesite.com.bd/index.php/bn/bangla/2014-03-23-11-45-04?layout=edit&id=2143"
}

所有文档都有一个日期属性。现在,当我写下面这个查询时,结果显示的时间非常长,几乎没有尽头。

from pymongo import Connection
import datetime

con = Connection()
db = con.spider
pages = db.pages

today = datetime.datetime.combine( datetime.date.today(), datetime.datetime.min.time() )

c = pages.find({ u'category': 'news', u'date': {u'$gt': today } }, {u'title': 1, '_id': 0} )

for item in c:
    print item

索引是,

_id, url, parsed

我该如何提高这个查询的性能,让它在一个可以接受的时间内完成呢?任何靠谱的答案或建议都非常感谢!

1 个回答

5

看起来在 categorydate 上添加一个索引会有帮助。

pages.createIndex({'date': 1, 'category': 1});

在 pymongo 中,创建索引 的方式大概是这样的:

keys = [
    ("date", pymongo.ASCENDING),
    ("category", pymongo.ASCENDING)
]
pages.create_index(keys)

你可能会感兴趣的选项有:

name: custom name to use for this index - if none is given, a name will be generated
unique: if True creates a unique constraint on the index

不过我不认为日期和类别会是唯一的。给索引起个名字似乎是个好习惯。

撰写回答