我在
mongodb中遇到了聚合问题.前提是我必须在一定时间范围内获取特定广告的数据.
因此,假设我在4月22日到4月24日的范围内查询广告,这是我应该得到的,来自source2的支出总和,以及来自source1的收入,会话,退回等.
[{ "_id" : ObjectId("560bbd5dfabc614611000e95"),
"spend": 470,
"revenue": 440,
"sessions": 3
},....
]
这是查询,我试图给我正确的数据,但需要很长时间 – 仅22k entires 24秒.
db.getCollection('tests').aggregate([{
$match: {
ad_account_id: 40
}
}, {
"$unwind": "$source1"
}, {
"$unwind": "$source2"
}, {
"$group": {
"_id": "$internal_id",
"transactionrevenue": {
"$sum": {
"$cond": [{
"$and": [{
"$gte": [
"$source1.created_at", ISODate("2015-04-22T00:00:00.000Z")
]
}, {
"$lte": [
"$source1.created_at", ISODate("2015-04-25T00:00:00.000Z")
]
}]
}, "$source1.transactionrevenue", 0]
}
},
"sessions": {
"$sum": {
"$cond": [{
"$and": [{
"$gte": [
"$source1.created_at", ISODate("2015-04-22T00:00:00.000Z")
]
}, {
"$lte": [
"$source1.created_at", ISODate("2015-04-25T00:00:00.000Z")
]
}]
}, "$source1.sessions", 0]
}
},
"spend": {
"$sum": {
"$cond": [{
"$and": [{
"$gte": [
"$source2.created_at", ISODate("2015-04-22T00:00:00.000Z")
]
}, {
"$lte": [
"$source2.created_at", ISODate("2015-04-25T00:00:00.000Z")
]
}]
}, "$source2.spend", 0]
}
}
},
}]);
问题是如何多次展开,如何在source1中得到多个东西的总和而不必一次又一次地进行聚合? 22个条目需要24秒……请建议我应该索引什么(我没有),以及平均4mb的文档大小是否表明架构有问题?
即使在mongodb中聚合通常被认为更快,map map会更好吗?
如果您认为文档设计错误,我会全力以赴,因为我们正在进行迁移.现在更好地纠正事情,而不是以后.
这是一个示例文档
{
"_id" : ObjectId("560bbd5dfabc614611000e95"),
"internal_id": 1,
"created_at" : ISODate("2015-04-21T00:50:02.593Z"),
"updated_at" : ISODate("2015-09-15T12:20:39.154Z"),
"name" : "LookalikeUSApr21_06h19m",
"ad_account_id" : 40,
"targeting" : {
"age_max" : 44,
"age_min" : 35,
"genders" : [
1
],
"page_types" : [
"desktopfeed"
]
},
"auto_optimization" : false,
"source1" : [
{
"id" : 119560952,
"created_at" : ISODate("2015-04-23T12:35:09.467Z"),
"updated_at" : ISODate("2015-05-19T05:20:58.374Z"),
"transactionrevenue" : 320,
"sessions" : 1,
"bounces" : 1
},
{
"id" : 119560955,
"created_at" : ISODate("2015-05-01T12:35:09.467Z"),
"updated_at" : ISODate("2015-05-19T05:20:58.374Z"),
"transactionrevenue" : 230,
"sessions" : 10,
"bounces" : 1
},
{
"id" : 119560954,
"created_at" : ISODate("2015-04-23T10:35:09.467Z"),
"updated_at" : ISODate("2015-05-19T05:20:58.374Z"),
"transactionrevenue" : 120,
"sessions" : 2,
"bounces" : 1
},
{
"id" : 119560953,
"created_at" : ISODate("2015-04-25T12:35:09.467Z"),
"updated_at" : ISODate("2015-05-19T05:20:58.374Z"),
"transactionrevenue" : 100,
"sessions" : 3,
"bounces" : 2
}
],
"source2" : [
{
"id" : 219560952,
"created_at" : ISODate("2015-04-22T12:35:09.467Z"),
"updated_at" : ISODate("2015-05-19T05:20:58.374Z"),
"spend" : 300
},
{
"id" : 219560955,
"created_at" : ISODate("2015-04-23T12:35:09.467Z"),
"updated_at" : ISODate("2015-05-19T05:20:58.374Z"),
"spend" : 170
},
{
"id" : 219560954,
"created_at" : ISODate("2015-04-25T10:35:09.467Z"),
"updated_at" : ISODate("2015-05-19T05:20:58.374Z"),
"spend" : 450
}
]
}
最佳答案 您应该做的第一件事是为其“created_at”字段为source1和source2数组添加索引.通过查询所选文档中存在的这些可能匹配,您可能会大大减少许多可能的结果并大大提高速度.
接下来的主要改进是将数组和过滤器合并为一个,特别是在处理$unwind之前.这将节省大量的循环并在阵列中进行文档扩展.
而且,它会给你正确的总数.当您展开两个数组时,第二个数组中的项目数会重复一个数组的详细信息.这会为您首先“解开”的数组内容提供错误的结果.您可以随时单独执行每个操作,但将它们合并为一个更好:
db.getCollection('tests').aggregate([
{ "$match": {
"ad_account_id": 40,
"$or": [
{
"source1": {
"$elemMatch": {
"created_at": {
"$gte": new Date("2015-04-22"),
"$lte": new Date("2015-04-25")
}
}
}
},
{
"source2": {
"$elemMatch": {
"created_at": {
"$gte": new Date("2015-04-22"),
"$lte": new Date("2015-04-25")
}
}
}
}
]
}},
{ "$project": {
"_id": 0,
"internal_id": 1,
"source": {
"$setDifference": [
{ "$map": {
"input": { "$setUnion": [ "$source1", "$source2" ] },
"as": "source",
"in": {
"$cond": [
{ "$and": [
{ "$gte": [ "$$source.created_at", new Date("2015-04-22") ] },
{ "$lte": [ "$$source.created_at", new Date("2015-04-25") ] }
]},
"$$source",
false
]
}
}},
[false]
]
}
}},
{ "$unwind": "$source"},
{ "$group": {
"_id": "$internal_id",
"transactionrevenue": { "$sum": { "$ifNull": [ "$source.transactionrevenue", 0 ] } },
"sessions": { "$sum": { "$ifNull": [ "$source.sessions", 0 ] } },
"spend": { "$sum": { "$ifNull": [ "$source.spend", 0 ] } }
}}
])
哪个会给你的样品结果:
{ "_id" : 1, "transactionrevenue" : 440, "sessions" : 3, "spend" : 470 }
因此,伟大的大型架构暗示在这里所做的事情,将数组组合成一般应用程序使用中的单个数组是非常明智的.如果必须在两种不同类型的项目之间进行辨别,则可以随时为“type”添加另一个字段,但几乎所有处理都应该从单个数组中受益.
除此之外,查询的主要教训是,您始终首先匹配以过滤掉尽可能多的内容.虽然最初的$match阶段当然不能从不符合条件的数组中删除项目,但重要的是“匹配文档”.因为您根本不想处理根本没有该信息的文档.这总是增加时间.
组合数组以外的第二部分是基本上你想要在可能的情况下解析数组之前过滤掉任何内容,原因大致相同,因为你不想处理你不需要的项目.
短课程,首先过滤以减少您正在处理的内容.条件总和很好,但实际上只应该用于选择内容而不是原始过滤.它基本上是首先摆脱不需要的数据而不是忽略它.处理更少,更快.