Sequoiadb的数据分区应用

使用更先进的浏览器访问效果更佳。

Sequoiadb的数据分区应用

Johnny

在所有分布式的大数据应用场景中，数据分区是必不可少的一个过程。只有通过合理的数据分区策略，系统才能将数据较好地分开存储在集群的各个服务器上，才有机会充分利于集群中各个服务器的计算资源来完成海量的计算和分析的任务；只有设计出符合应用场景的数据分区策略，架构师才能为系统的技术造型和架构设计打下坚实的基础。所以，数据分区是分布式大数据相关技术与业务场景相衔接的最核心的一个环节。

数据分区从目标上来说可以分为数据水平分区，数据垂直分区两种（这引用Sequoiadb技术文档的概念）。水平分区的主要目标是将一个集合的数据分到不同的物理节点上，垂直分区的主要目标是将一个集合的数据划分成多个逻辑的集合。

笔者最近设计过一个基于某微博网站的微博数据的数据分析平台，在此应用场景中主要有以下的难点：

1. 微博用户数量庞大，该网站有数亿的微博用户。

2. 微博的数量庞大，该网站一天有超过一亿条微博产生。

3. 微博的转发数量庞大

4. 微博的评论数量庞大

基于微博的用户及微博的数据可以做各种各样的分析应用，如用户画像，用户影响力，微博影响力，微博传播方式等等，为了满足各种的分析，数据分析平台根据用户，粉丝关系，微博，转发，评论五个核心数据采用了不同的数据分区策略。

关于用户：使用混合分区策略。用户包括ID，名称，关注数，粉丝数，是否通过验证等属性，笔者根据分析应用中的倾向，根据粉丝数，验证信息等几个属性拟合出一个影响力的值，并使用影响力字段作水平分区和垂直分区依据。

垂直分区：根据影响力划分为5个等级，具体如下表。分析应用可根据应用场景来选择全表分析查询或子表分析查询。

主分区表

非主分区表

下界

user

user_v1

user_v2

100

user_v3

200

user_v4

300

user_v5

400

水平分区：根据影响力的范围，以及集群未来可达到的复制组数最大值，再将影响力的范围划小，如影响力[100，200)，集群最大复制组数为8，则水平分区可将影响力区间划分为8个子区间，进行范围水平分区，具体如下表。当分析应用使用大量的用户数据时，可以充分利用集群中的每一台服务器来完成分析任务。即使当前集群的复制组数并没有8个，但为了日后的维护的方便，可以先将数据进行较细的分区。

复制组

下界

上界

复制组

下界

复制组1

100

112

复制组5

150

复制组2

112

124

复制组6

162

复制组3

124

136

复制组7

174

复制组4

136

150

复制组8

186

关于粉丝关系：使用水平分区略。由于粉丝关系只有两个属性，跟随者ID，被跟随者ID，ID并没有特别的离散规律，所以使用Sequoiadb数据库支持的散列分析方法即可。建立集合时注意Partition最好是集群最大复制组数的若干倍，这样有利于日后节点数的平滑扩充。

admin

关于微博：使用混合分区策略。微博包括ID，内容，转发数，评论数，发表时间等属性，笔者根据分析应用的倾向，根据转发数，评论数，赞数等属性拟合出一个影响力的属性，并以影响力作为微博垂直分区的依据，根据微博的创建时间作为水平分区的依据。

垂直分区：根据影响力划分为5个等级，具体如下表。分析应用可根据应用场景来选择全表分析查询或子表分析查询。

主分区表

非主分区表

下界

status

status _v1

status _v2

100

status _v3

200

status _v4

300

status _v5

400

水平分区：根据根据微博的发表时间，由于该网站一天发表的微博超过1亿条，超过了单台服务器，平均查询的数量，同时也为了避免写热点的问题，笔者采用了更小的时间单位小时，具体如下

复制组

区间

复制组

复制组1

[1,2) [9,10) [17,18)

复制组5

复制组2

[2,3) [10,11) [18,19)

复制组6

复制组3

[3,4) [11,12) [19,20)

复制组7

复制组4

[4,5) [12,13) [20,21)

复制组8

关于转发：使用混合分区策略。转发具有与微博相同的属性，笔者根据转发的再次转发数及转发者的粉丝等信息，拟合出转发影响力的属性，并以影响力属性分为垂直分区的依据，以被转发的原创微博的ID及转发时间为水平分区的依据。

垂直分区：根据影响力划分为5个等级，具体如下表。分析应用可根据应用场景来选择全表分析查询或子表分析查询。

主分区表

非主分区表

下界

repost

repost _v1

repost _v2

100

repost _v3

200

repost _v4

300

repost _v5

400

水平分区：由于关于转发的分析应用往往针对一个原创微博或一个时间段的微博而展开，所以为了避免产生读热点：对于影响力在1~3级的转发，并用根据原创微博ID离散水平分区的方式进行；对于影响力在4~5级的转发，由于转发的数量巨大，可达千万级别，若采用离散的水平分区方式，系统必定会将数据集中在一台服务器上，对转发进行分析时，只利用到一台服务器，导致产生读热点，所以采用按转发的时间进行水平分区，方式与微博的类似，不同的点在于，转发并不是使用小时，而是使用的是分钟，避免热门微博在短时间内产生大量的转发的情况。

关于评论：使用混合分区策略。评论的微博的影响力，作为评论的影响力，并按影响力进行垂直分区，见微博的垂直分区，与转发类似，对于影响力较小的微博评论，根据微博的ID进行散列水平分区，对于影响力较大的微博评论采用时间水平分区，根据的是评论时间的分钟数。

以上若干数据分区的使用例子，其中使用了水平分区，混合分区。与常见的数据库产品相比，HBase通过Region的分布式存储来实现水平分区，Oracle通过分区表来实现垂直分区，而Sequoiadb能同时支持水平分区和垂直分区，提供了至少2个以上维度，为复杂的数据分区环境实现提供了有力的支持。

一般来说，应用业务场景，即总量庞大，但单个查询最大值不大的场景，往往只需要数据水平分区，如淘宝用户订单管理，一个用户的订单不大可能达到百万级别以上，后台只需要当用户订单按用户维度进行水平分区，当一个用户登陆之后在一台机器上就足以查询出用户所需要的所有数据了；而在分析业务场景往往需要混合分区，因为分析业务场景往往中，单个查询的最大值就是总量，而不同的查询需要从不同的维度去切入，价值高的信息会被往往反复查询，如电商的订单分析系统，交易成功的订单比取消的订单信息价值更高，会在用户分析，店铺分析等多种场景下反复查询，如果只有简单的水平分区，必然导致重复的查询，浪费资源。

admin

最后笔者额外提一个关于索引的想法。

索引是快速检索数据的利器，设计合理的索引可使系统以少量空间代价换取更多时间。Sequoiadb支持多个索引，这比HBase要使用索引表或二级索引组件更简单。

在设计索引时，笔者遇到一个问题，在导入数据到分析库时，需要多次分批导入，由于其他原因每次导入的数据有可能有重复，而_id字段无法保证集群整体的唯一性，所以需要定义唯一索引。在定义唯一索引时，索引需要在索引中包含分区键的所有属性。这是由于Sequoiadb是一个完全分布式的数据库，其索引也是完全分布式的索引，为了快速检查唯一性，需要分区键是有合理的，但对于实际应用场景而言，唯一主键往往都于分区键没有必然的关联，如上述的用户表，用户ID是唯一键，但其分区键为影响力，而用户ID与影响力并没有关联，而且影响力字段是经过一段时间是需要更新的。

为了达到额外的简单的唯一键索引，笔者还是采用了添加额外的索引表ind_user的方式，索引表只有一个属性_id，分区键也是_id，通过程序控制user的数据插入时排重。

笔者认为这种设计思路可以作为Sequoiadb关于唯一索引或者_id字段的另一种实现方式，而如果这种思路由Sequoiadb直接支持，从而进一步支持类似于MySQL的insert ignore, insert replace, insert on duplicate key update三个SQL语法和相关API，那么海量排重的工作在服务器端自动完成，比客户端与服务器反复交互来完成，要快速得多。这样一来，Sequoiadb在数据的入库环节做得更好，有利于Sequoiadb在不同应用场景的推广。