sparksql访问sdb，如何并行读取数据

使用更先进的浏览器访问效果更佳。

sparksql访问sdb，如何并行读取数据

f2rainforest

测试环境： 1、一共三台虚拟机，spark和sdb都安装在这3台节点上

2、sdb的建表语句：db.mycs.createCL("test_cl",{ "ShardingKey":{"id":1}, "Group":"datagroup", ReplSize:0})

测试步骤：

sqlContext.sql("CREATE TEMPORARY TABLE datatable USING com.sequoiadb.spark OPTIONS ( host 'server1:11810,server2:11810,server3:11810', collectionspace 'mycs', collection 'test_cl')")

val value = sqlContext.sql(“select * from datatable”)

val rdd = value.rdd

测试结果：

发现如上的rdd的分区数是1，好像不是并行从sdb读取数据的，请问大神如何实现并行读取？

许建辉

对于collection，你需要把collection切分到多个数据组上，使用命令：

db...split( < 源数据组> , , )

例如有3个数据组，则每次 split 的百分比数据是 33

mcmmiscd

請問你是怎麼裝成功的,我的建表報錯阿

sqlContext.sql("CREATE temporary table foobar USING com.sequoiadb.spark OPTIONS ( host 'master:11810,node1:11810,node2:11810', collectionspace 'foo', collection 'bar')")

16/06/14 18:53:04 WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable

java.lang.RuntimeException: Failed to load class for data source: com.sequoiadb.spark