有这么一个业务场景:
各个地市每天都需要分析集合A的数据,各个地市之间并没有交集。数据规模:平均一个地市一天估计在1~4T左右。
集合A的字段包括:CITY VARCHAR(20),TS TIMESTAMP,......
问:
如何设计分区,考虑到不同地市的数据量相差比较大,是否适合用hash?
CITY,TS两个字段作为分区键。是否支持CITY字段用hash方式,而TS字段用Range方式的方式。
每次分析是仅限于某个地市当天的数据吗?
是的,现在想用PG对接方式实现复杂的SQL运算
1-4T的一个查询,pg不知道能不能抗的住。
以前在oracle上5分钟做一个表分区,在sequoiadb上也要找到对应的处理方式才行。
上面的分区应该如何设计呢?
按照你上面的说法,可以TS做垂直分区,子分区用CITY水平hash分区。但是CITY应该最多几十个吧,这样做hash能散列的开吗。