关于Hbase和巨杉的关系

使用更先进的浏览器访问效果更佳。

关于Hbase和巨杉的关系

evak206

通过最近的巨杉学习，这两天又接触了一下Hadoop，感觉有似曾相识的感觉。
我的理解是：HBASE就像巨杉集群内的一个存储集群，可以实现上层文件的共享。HDFS像是巨杉本身分布式，类似sdbadmin用sdb进去的那个shell层面进行的操作，MapReduce有点像SQL实例和Coord节点编目节点间进行的操作。想问一下这样是否正确？

另外，看了这篇文章巨杉Tech | Hbase迁移至SequoiaDB 实战，想问一下SequoiaDB是可以支持把Hbase里面的数据通过巨杉的MySQL实例导入到巨杉里面存着，有没有其他对接的功能？大胆假设一下SequoiaDB是否可以替换Hadoop里面的HBase？

最后，我了解到有些地方将大数据和greenplum一起用了，具体细节不太清楚怎么用的。想问巨杉和GP的对比有吗？

choudao58

evak206
1.HBASE和SequoiaDB都可以理解为一个分布式存储，只不过各自针对的应用场景不一样，HBASE主要是基于OLAP的分析型存储引擎，SequoiaDB是基于OLTP在线分布式事务处理存储引擎。
2.HDFS（Hadoop Distributed File System）是一个分布式文件系统，有着高容错性，适合那些有着超大数据集的批量处理，SequoiaDB是通过同步事务日志来实现多副本，通过多副本来达到存储引擎的高可用，主要是针对OLTP在线分布式事务处理业务场景。
3.MapReduce和SequoiaDB的SQL实例coord节点可以理解为功能定位一样，主要是实现数据的计算，但coord还有一些其他的功能，协调节点作为外部访问的接入与请求分发节点，协调节点将用户请求分发至相应的数据节点。
4.SequoiaDB暂时不支持把Hbase里面的数据通过巨杉的MySQL实例导入到巨杉里面，我们可以通过把Hbase数据导成CSV，或者写一个小程序来实现数据的导入。SequoiaDB在很多业务场景是完全可以替代Hadoop里面的HBase。
5.SequoiaDB暂时没有和GP没有对比，巨杉主要是针对分布式事务处理业务场景，而GP主要是结构化数据的OLAP业务场景，两个产品主要业务场景定位不一样。

geq

学习了！