如何提高模糊查询的性能

使用更先进的浏览器访问效果更佳。

机器配置64G内存，硬盘3T，作了RADIO5

关于数据库查询问题，独立模式部署，如何提高数据库模糊查询性能，单space,单集合，数据量有2.8亿条，并且对emailName字段建有索引，

执行查询时候，非常慢，相关代码如下：一般都是在统计总量的时候很慢，有啥改进方法了么？

1、是否单个集合不能超过一定的阀值？如1亿条

2、是否单个SPACE文件不能超过多少G？如40G

后端数据newMailMagicSpace大小如下：

-rw-r----- 1 sdbadmin sdbadmin_group 103234469888 Oct 20 21:15 newMailMagicSpace.1.data

-rw-r----- 1 sdbadmin sdbadmin_group 31289573376 Oct 20 21:15 newMailMagicSpace.1.idx

-rw-r----- 1 sdbadmin sdbadmin_group 38004654080 Oct 21 12:22 otherMagicSpace.1.data

-rw-r----- 1 sdbadmin sdbadmin_group 2566979584 Oct 21 12:22 otherMagicSpace.1.idx

其中2.8亿条数据，11个维度，导致newMailMagicSpace空间单个数据文件达100G，2个索引字段文件达到31G

有啥好的参考及说明么？

以下代码是数据模糊查询的API，很慢，

查询总数运行时间：564374ms

db = sdb.getCollectionSpace("newMailMagicSpace");

cl = db.getCollection("newemailCollection");

DBCursor cursor;

BSONObject queryCondition = new BasicBSONObject();

String dnsquery="13590280350";

Pattern pattern = Pattern.compile("^.*"+dnsquery+".*$", Pattern.CASE_INSENSITIVE);

// Pattern pattern = Pattern.compile("^.A"+dnsquery+".*$", Pattern.CASE_INSENSITIVE);

queryCondition.put("emailName",pattern);

///^A/

// queryCondition.put("emailName", dnsquery);

// queryCondition = (BSONObject) JSON.parse("({age:{$ne:20}})");

// 查询所有记录，并把查询结果放在游标对象中

cursor = cl.query(queryCondition, null, null, null, 0, 20);//-1表示所有

long startTime=System.currentTimeMillis();

long emailCount=cl.getCount(queryCondition);

System.out.println("tradeCount=="+emailCount);

索引键多大。11个字段，两个索引就31G.

只有遵循最左匹配的正则查询才能走索引。可以用db.foo.bar.find({条件}).epxlain()看一下是否走了索引。你这里的场景是搜索任意匹配邮箱子串的吧。表扫描每次最坏情况要扫100G的数据文件。

用的emailName及password建的索引，

索引名索引定义唯一索引强制唯一

1 $id {"_id":1} true true

2 emailNameIndex {"emailName":1} false false

3 emailPasswdIndex {"emailPasswd":1} false false

索引字段不长呀，一般邮箱及密码，不超过20个字符串，

如果我这样，把这每个space设置最多容纳1亿的数据，然后同一查询条件，我提交到多个collection中去查，再汇总结果，是还会快一下呢，因为每个collection我都针对同一个字段建各自的索引，的，查少的量，是否更快？:)

关键是你这里的查询根本用不了索引。这种场景需要类似全文的索引才可以。

如果是分成几个表，在应用多线程同时做表扫描，然后汇总结果。理论上可以快一些。但是

磁盘IO到了100+MB基本就上不去了。所以估计分3-4个表基本就到顶了。