对结果集分组、查询的效率、访问计划（三个问题）

使用更先进的浏览器访问效果更佳。

对结果集分组、查询的效率、访问计划（三个问题）

hustwei

【问题1】对结果集的分组

我的需求：对一个表进行条件查询，对符合条件的结果按一个字段进行分组，用java实现。

我看文档中是这样用的：

db.collectionspace.collection.aggregate({$group:{_id:"$major",avg_score:{$avg:"$score"},Major:{$first:"$major"}}})

返回的数据是：

{ "avg_score": 82, "major": "光学"}{ "avg_score": 77.25, "major": "物理学"}

但是java 接口的原型是这样的：

这个obj参数怎么传，list中每一个元素都是依次对上次操作的结果进行在进行操作？

【问题2】：

我还有个查询的需求，查询的matcher是稍微比较复杂的结构，有多个参数需要比较，且按照$and和$or组合在一起。不考虑建立索引，这样的方式比直接查询一个简单的matcher的效率慢一点还是慢一个甚至几个量级？

我猜测查询的过程是遍历每条记录对matcher进行适配，所以不管matcher多复杂，也就是比较时多一点的开销（比较的开销），不会导致很严重的慢（需要来回读取几遍原始数据），是否这样？

另外，我的matcher可能是类似 : $and:{条件A , 条件B,...},若前面的条件A不满足，就不用比较后面的条件了，加快速度，是否这样？

【问题3】

queryOne和query接口参数有一个flag字段：

the flag is used to choose the way to query, the optional options are as below:

源码中，queryOne可以采用：

* BDQuery.FLG_QUERY_STRINGOUT （Normally, query return bson stream, when this flag is added, query return binary data stream）

* BDQuery.FLG_QUERY_FORCE_HINT （Force to use specified hint to query,if database have no index assigned by the hint, fail to query）

* BDQuery.FLG_QUERY_PARALLED （Enable paralled sub query）

query可以采用：

* DBQuery.FLG_QUERY_STRINGOUT

* DBQuery.FLG_QUERY_FORCE_HINT

* DBQuery.FLG_QUERY_PARALLED

* DBQuery.FLG_QUERY_WITH_RETURNDATA （ return data in query response）

* DBQuery.FLG_QUERY_EXPLAIN （explain query）

这几种flag起什么作用，尤其是DBQuery.FLG_QUERY_PARALLED。

我采用3个物理结点，分成三个组。表shard分区键映射到不同分组进行存储，每个组里面就一个副本。DBQuery.FLG_QUERY_PARALLED会加快查询吗？怎么个加快法呢，大致原理是什么（按不同分组并行加快，还是同一分组的不同副本并行加快，我这种场景能否加快查询）？

每个问题都不是很big，干脆攒一起问下吧。

多谢版主。

Diablo

1. 这个问题我不太清楚，等下周问一下别的同学再答复。

2. 不走索引的扫描，查询条件的复杂程度不会是性能影响的主要因素。匹配的时候会生成一个匹配树，一个记录只读取一遍。

3. DBQuery.FLG_QUERY_STRINGOUT 是对接hadoop用的，可以将一个bson打成hadoop需要的格式。

DBQuery.FLG_QUERY_FORCE_HINT 代表如果没有匹配到hint指定的索引则报错。

DBQuery.FLG_QUERY_PARALLED 是并发查询，可以按照一定的任务切分查询，你这个场景应该用不到。

DBQuery.FLG_QUERY_WITH_RETURNDATA，普通的消息流程里第一次的应答只返回游标，不返回数据。加了这个可以在第一次应答就返回数据。

DBQuery.FLG_QUERY_EXPLAIN 返回查询的访问计划。效果参见db.foo.bar.find().explain({Run:true})

hustwei

多谢啊。

第一个问题有结论吗？我实际这样操作报错：

Exception in thread "main" com.sequoiadb.exception.BaseException: errorCode:-6,Invalid Argument

Exception Detail:[{ "$group" : { "CREATETS" : "1431394607002"}}]

at com.sequoiadb.base.DBCollection.aggregate(DBCollection.java:1447)

at com.cmmobi.seqdb.SeqDBManage.main(SeqDBManage.java:303)

linyoubin

shell 接口的aggregate描述如下：

aggregate() 方法只有一个参数 subOp，它表示 1~N 个子操作，每个子操作是一个 JSON 对象，子操作之间用逗号隔开。聚集框架支持以下子操作参数：

参数名	描述
$project	选择需要输出的字段名，“1”表示输出，“0”表示不输出，还可以实现字段的重命名。
$match	实现从集合中选择匹配条件的记录，相当与 SQL 语句的 where。
$limit	限制返回的记录条数。
$skip	控制结果集的开始点，即跳过结果集中指定条数的记录。
$group	实现对记录的分组，类似与 SQ L的 group by 语句，“_id”指定分组字段。
$sort	实现对结果集的排序，“1”代表升序，“-1”代表降序。

java接口中的aggregate为：

DBCursor com.sequoiadb.base.DBCollection.aggregate( List< BSONObject > obj ) throws BaseException

使用时，只要将shell接口中的多个JSON对象添加到List obj中即可。

你的例子中可以这样使用：

shell：

db.collectionspace.collection.aggregate({$group:{_id:"$major",avg_score:{$avg:"$score"},Major:{$first:"$major"}}})

java驱动：

BSONObject tmp = new BasicBSONObject();

tmp = (BSONObject)JSON.parse("{$group:{_id:\"$major\",avg_score:{$avg:\"$score\"},Major:{$first:\"$major\"}}}");

Listobj = new ArrayList();

obj.add(tmp);

cl.aggregate(obj);

hustwei

可以工作，但是又遇到一个新问题：

我按createTS聚合：

>db.pushCS.cmmobi_push_userinfo.aggregate({$group:{_id:"$CREATETS"}})

返回不同CREATETS的项，但是相同CREATETS的项只有一个返回，其它的被隐藏了。我想得到所有相同CREATETS的项，要怎么获取？

Diablo

能否将期望的查询以SQL形式写出来

hustwei

比如原始记录是：

{dev:d1, userid:u1, createTs:123},

{dev:d1, userid:u2, createTs:124},

{dev:d2, userid:u2, createTs:123},

执行按createTs聚合后得到这样的结果：

{

[{dev:d1, userid:u1, createTs:123}，{dev:d2, userid:u2, createTs:123}]

}

{

[{dev:d1, userid:u2, createTs:124}，{dev:d1, userid:u2, createTs:124}]

}

如果没有类似的功能，我只能用普通的query得到list，再依次放到一个map中，key为聚合key，value为list。

Diablo

如果是想得到这种特定格式的结果应该是不支持的。

具体是什么场景呢，看看有没有别的办法。自己在应用

里做这些不太好。

hustwei

有什么操作能把一个集合按某个字段切分成几个小集合。比如在我这个分布式的场景，需要根据目标server进行切分，每个小集合都是一个特定的server的数据。

我目前想到的是先用数据结构（hashMap）处理一遍，效率应该还行。

另外，第二个问题我再接着问：

比如我的匹配条件是类似这样的 UserId:U1 or UserId:U2 or UserId:U3 ...or UserId:Un

这个匹配树怎么建立？是一个平坦的多叉树还是有一个二叉树？

因为我这里的条件可能还有点多，比如有1万甚至10万以上都有可能。

假设条件的数量有m，这个比较的时间复杂度是多少？

我这个场景就是类似ios的push发送，它允许发送多个用户，把批量用户的deviceToken用逗号分隔连成一个大的字符串去给ios服务器，服务器的条件匹配就是类似 UserId:U1 or UserId:U2 or UserId:U3 ...or UserId:Un这样的场景。

hustwei

还有一个问题：

我有很多场景是查询出来的数据马上就要获取实际数据，假设返回的数据量不大，是不是需要加上DBQuery.FLG_QUERY_WITH_RETURNDATA

这样用 DBCursor cursor = cl_command.query(where, field, null, null， DBQuery.FLG_QUERY_WITH_RETURNDATA);

cursor.getNext()的时候底层就不再查去数据库获取数据了？

Diablo

1. 如果是这种结构{id:{dev:d1, userid:u1}, createTs:123}，倒是有办法直接返回你要的东西。但是效率不好保证。需要的话可以私信我qq详细聊一下。

2. UserId:U1 or UserId:U2... 这种查询可以转化为 $in:[1,2,3,...]，这样可以更高效。目前

or操作是不能使用索引的。

3. 这个量级的条件不管什么形式的树结构都扛不住，即使转化为in操作，cpu压力太大了。是不是可以重新考虑一下方案。

Diablo

是的。搭配findOne接口效果更好。