如何在mongodb查询过滤器中更改日期格式和连接字符串匹配？

var db2 = new Mongo("<URI_1>").getDB("analy") var db = new Mongo("<URI_2>").getDB("clone") var readDocs= db2.coll1 var writeDocs= db.temp_coll var Urls = new Mongo("<URI_2>").getDB("clone").myCollection.distinct("Url" ,{}) var filter= {"Url": {$in: Urls }} moveDocuments(readDocs, writeDocs, filter, 10932)

var UrlsAndDate = new Mongo("<URI_2>").getDB("clone").myCollection.distinct("Url"+"formated_Date" ,{}) var filter= {"Url"+"formated_Date": {$in: Urls }} readDocs.find(filter) ...and do the same stuff as above!

1条回答

网友

1楼 · 发布于 2024-04-19 18:03:41

我要做的第一件事是，如果集合还不存在，就在集合上用{url: 1, date: 1}创建复合索引。假设集合A有35k个文档，集合B有470万个文档。我们无法在内存中加载全部470万文档数据。您正在迭代内部循环中B的游标对象。我假设一旦游标对象耗尽，您将再次查询集合。你知道吗

这里有一些观察，为什么我们每次都要迭代470万个文档。我们可以只获取匹配A中每个文档的url和日期的文档，而不是获取所有470万个文档然后进行匹配。将a_doc日期转换为b_doc格式，然后进行查询，比将两者转换为公共格式要好得多，这迫使我们进行470万个文档的迭代。阅读下面的伪代码。你知道吗

a_docs = a_collection.find()
c_docs = []
for doc in a_docs:
    url = doc.url
    date = doc.date
    date = convert_to_b_collection_date_format(date)
    query = {'url': url, 'date': date}
    b_doc = b_collection.find(query)
    c_docs.append(b_doc)
c_docs = covert_c_docs_to_required_format(c_docs)
c_collection.insert_many(c_docs)

上面我们循环了超过35k个文档，并对每个文档进行筛选。考虑到我们已经创建了索引，查找需要对数时间，这似乎是合理的。你知道吗

定义

呼叫

有暴力解决方案，但不可行！

相关问题更多 >

编程相关推荐

热门问题

热门文章