sequoiadb spark connector 支持spark 2.0
大家可以登录github 的地址https://github.com/SequoiaDB/spark-sequoiadb 下载最新的代码,然后自己编译
sbt 编译命令:sbt compile package
mvn 编译命令:mvn clean install
新的连接器增加了一个scanType 的参数,能够让用户从sequoiadb 获取数据时,采用 块并发还是节点并发。
scanType 可选参数 [auto/ixscan/tbscan], default:auto
ixscan 为节点并发,特点是可以支持索引扫描,当有下压条件时,性能较好
tbscan 为数据块并发,特点是更高并发做数据抽取,提高集群吞吐量,主要适用在表扫描场景
auto 为智能匹配,当spark 向sdb 请求数据时,如果下压的条件能够匹配索引,则自动选择ixscan,如果该查询为表扫描,则自动选择tbscan
建表命令:
CREATE TEMPORARY TABLE test (name string, id int) USING com.sequoiadb.spark OPTIONS ( host 'serverX:11810,serverY:11810', collectionspace 'test', collection 'data', scanType 'auto');