spark使用hadoop-connector读取sdb的json实例失败

使用更先进的浏览器访问效果更佳。

spark使用hadoop-connector读取sdb的json实例失败

神思者

hadoop版本：hadoop-2.6.0-cdh5.10.0
spark版本：2.4.5
jdk版本：1.8
sequoiadb版本：5.0.1（com.sequoiadb.sequoiadb-driver-5.0.1.jar)
sequoiadb-hadoop-connec版本：2.2（com.sequoiadb.hadoop-connector-2.2.jar）
【问题详细描述】
使用spark和hadoop-connector读取sdb的json实例失败，报错：

com.sequoiadb.exception.BaseException: SDB_NETWORK(-15): Network error, detail: failed to connect to vip-070:11820
	at com.sequoiadb.net.TCPConnection.connect(TCPConnection.java:127)
	at com.sequoiadb.base.Sequoiadb.init(Sequoiadb.java:482)
	at com.sequoiadb.base.Sequoiadb.<init>(Sequoiadb.java:458)
	at com.sequoiadb.base.Sequoiadb.<init>(Sequoiadb.java:467)
	at com.sequoiadb.base.Sequoiadb.<init>(Sequoiadb.java:445)
	at com.sequoiadb.hadoop.io.SequoiadbBlockReader.<init>(SequoiadbBlockReader.java:76)
	at com.sequoiadb.hadoop.mapreduce.SequoiadbInputFormat.createRecordReader(SequoiadbInputFormat.java:60)
	at org.apache.spark.rdd.NewHadoopRDD$$anon$1.liftedTree1$1(NewHadoopRDD.scala:197)
	at org.apache.spark.rdd.NewHadoopRDD$$anon$1.<init>(NewHadoopRDD.scala:196)
	at org.apache.spark.rdd.NewHadoopRDD.compute(NewHadoopRDD.scala:151)
	at org.apache.spark.rdd.NewHadoopRDD.compute(NewHadoopRDD.scala:70)
	at org.apache.spark.rdd.RDD.computeOrReadCheckpoint(RDD.scala:346)
	at org.apache.spark.rdd.RDD.iterator(RDD.scala:310)
	at org.apache.spark.rdd.MapPartitionsRDD.compute(MapPartitionsRDD.scala:52)
	at org.apache.spark.rdd.RDD.computeOrReadCheckpoint(RDD.scala:346)
	at org.apache.spark.rdd.RDD.iterator(RDD.scala:310)
	at org.apache.spark.rdd.MapPartitionsRDD.compute(MapPartitionsRDD.scala:52)
	at org.apache.spark.rdd.RDD.computeOrReadCheckpoint(RDD.scala:346)
	at org.apache.spark.rdd.RDD.iterator(RDD.scala:310)
	at org.apache.spark.scheduler.ResultTask.runTask(ResultTask.scala:90)
	at org.apache.spark.scheduler.Task.run(Task.scala:123)
	at org.apache.spark.executor.Executor$TaskRunner$$anonfun$10.apply(Executor.scala:408)
	at org.apache.spark.util.Utils$.tryWithSafeFinally(Utils.scala:1360)
	at org.apache.spark.executor.Executor$TaskRunner.run(Executor.scala:414)
	at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1149)
	at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:624)
	at java.lang.Thread.run(Thread.java:748)
Caused by: java.net.UnknownHostException: vip-070
	at java.net.AbstractPlainSocketImpl.connect(AbstractPlainSocketImpl.java:184)
	at java.net.SocksSocketImpl.connect(SocksSocketImpl.java:392)
	at java.net.Socket.connect(Socket.java:607)
	at com.sequoiadb.net.TCPConnection.connect(TCPConnection.java:119)
	... 26 more

代码：

import org.apache.hadoop.conf.Configuration;
import org.apache.spark.api.java.JavaPairRDD;
import org.apache.spark.api.java.JavaSparkContext;
import org.apache.spark.sql.SparkSession;
import org.slf4j.Logger;
import org.slf4j.LoggerFactory;

import com.cqvip.analyzer.tools.hdfs.DeleteHDFS;
import com.sequoiadb.hadoop.io.BSONWritable;
import com.sequoiadb.hadoop.mapreduce.SequoiadbInputFormat;

public class NormalExtract 
{
	private static Logger logger = LoggerFactory.getLogger(NormalExtract.class);
	
	private static String sdbUri = "192.168.31.26:11810";
	private static String collectionSpace = "datawarehouse_test";
	private static String collectionName = "base_obj_meta_a";
	
	private static String showPath = "/user/ganruoxun/test";
	
	public static void main(String[] args) 
	{
		SparkSession sparkSession = SparkSession
				.builder()
				.appName("NormalExtract")
		        .getOrCreate();
		
		JavaSparkContext jsc = new JavaSparkContext(sparkSession.sparkContext());
		jsc.setLogLevel("warn");
		
		extract(jsc);
		
		jsc.close();
	}
	
	public static void extract(JavaSparkContext jsc)
	{
		Configuration conf = jsc.hadoopConfiguration();
		conf.set("sequoiadb.input.url", sdbUri);
		conf.set("sequoiadb.in.collectionspace", collectionSpace);
		conf.set("sequoiadb.in.collection", collectionName);
		
		JavaPairRDD<Object, BSONWritable> sdbRDD = jsc
				.newAPIHadoopRDD(conf, SequoiadbInputFormat.class, Object.class, BSONWritable.class);
		
		if (DeleteHDFS.deleteDir(jsc, showPath)) 
		{
			sdbRDD.map(tuple -> tuple._1.toString() + "\t" + tuple._2.getBson().toString())
				.saveAsTextFile(showPath);
		}
	}
}

SuperGT

神思者 failed to connect to vip-070:11820
这里说是连接不上vip-070这台服务器的11820节点，首先看看192.168.31.26这台服务器是否能telnet到vip-070:11820，
其次看看节点状态是否正常
Caused by: java.net.UnknownHostException: vip-070
检查一下/etc/hosts文件是否配置正确

明日愁来明日忧

看您这边的报错信息是找不到节点，您可以检查sdb节点的状态是否正常，或者在sdb shell环境下操作sdb，看下是否会报错。

神思者

明日愁来明日忧我使用Java的sequoiadb-driver进行连接和读取是成功的。

public class SequoiaDBTest 
{
	private static String sdbUri = "192.168.31.26:11810";
	private static String collectionSpace = "datawarehouse_test";
	private static String collectionName = "base_obj_meta_a";
	
	public static void queryOne(DBCollection collection, String _id) 
        {
		BSONObject queryCondition = new BasicBSONObject("_id", _id);
		BSONObject result = collection.queryOne(queryCondition, null, null, null, 0);
		System.out.println(result.toString());
        }

	public static void main(String[] args) 
	{
		Sequoiadb sdb = null;
		
		try {
		       sdb = new Sequoiadb(sdbUri, "", "");
		       CollectionSpace db = sdb.getCollectionSpace(collectionSpace);
		       DBCollection collection = db.getCollection(collectionName);
		       queryOne(collection, "0000100755DE1DACB1A925666392004CEBFBB");
		    
		} catch (Exception e) {
			e.printStackTrace();
		} finally {
			if (sdb != null) {
				sdb.close();
			}
		}
	}
}

明日愁来明日忧

或者在sdbUri前加http://试一下

神思者

明日愁来明日忧在sdbUrl之前加了http://之后还是报错：

java.lang.IllegalArgumentException: the arguements is wrong
	at com.sequoiadb.hadoop.util.SdbConnAddr.<init>(SdbConnAddr.java:26)
	at com.sequoiadb.hadoop.util.SequoiadbConfigUtil.getAddrList(SequoiadbConfigUtil.java:131)
	at com.sequoiadb.hadoop.split.SdbSplitFactory.getSplits(SdbSplitFactory.java:64)
	at com.sequoiadb.hadoop.mapreduce.SequoiadbInputFormat.getSplits(SequoiadbInputFormat.java:74)
	at org.apache.spark.rdd.NewHadoopRDD.getPartitions(NewHadoopRDD.scala:130)
	at org.apache.spark.rdd.RDD$$anonfun$partitions$2.apply(RDD.scala:273)
	at org.apache.spark.rdd.RDD$$anonfun$partitions$2.apply(RDD.scala:269)
	at scala.Option.getOrElse(Option.scala:121)
	at org.apache.spark.rdd.RDD.partitions(RDD.scala:269)
	at org.apache.spark.rdd.MapPartitionsRDD.getPartitions(MapPartitionsRDD.scala:49)
	at org.apache.spark.rdd.RDD$$anonfun$partitions$2.apply(RDD.scala:273)
	at org.apache.spark.rdd.RDD$$anonfun$partitions$2.apply(RDD.scala:269)
	at scala.Option.getOrElse(Option.scala:121)
	at org.apache.spark.rdd.RDD.partitions(RDD.scala:269)
	at org.apache.spark.rdd.MapPartitionsRDD.getPartitions(MapPartitionsRDD.scala:49)
	at org.apache.spark.rdd.RDD$$anonfun$partitions$2.apply(RDD.scala:273)
	at org.apache.spark.rdd.RDD$$anonfun$partitions$2.apply(RDD.scala:269)
	at scala.Option.getOrElse(Option.scala:121)
	at org.apache.spark.rdd.RDD.partitions(RDD.scala:269)
	at org.apache.spark.SparkContext.runJob(SparkContext.scala:2114)
	at org.apache.spark.internal.io.SparkHadoopWriter$.write(SparkHadoopWriter.scala:78)
	at org.apache.spark.rdd.PairRDDFunctions$$anonfun$saveAsHadoopDataset$1.apply$mcV$sp(PairRDDFunctions.scala:1096)
	at org.apache.spark.rdd.PairRDDFunctions$$anonfun$saveAsHadoopDataset$1.apply(PairRDDFunctions.scala:1094)
	at org.apache.spark.rdd.PairRDDFunctions$$anonfun$saveAsHadoopDataset$1.apply(PairRDDFunctions.scala:1094)
	at org.apache.spark.rdd.RDDOperationScope$.withScope(RDDOperationScope.scala:151)
	at org.apache.spark.rdd.RDDOperationScope$.withScope(RDDOperationScope.scala:112)
	at org.apache.spark.rdd.RDD.withScope(RDD.scala:385)
	at org.apache.spark.rdd.PairRDDFunctions.saveAsHadoopDataset(PairRDDFunctions.scala:1094)
	at org.apache.spark.rdd.PairRDDFunctions$$anonfun$saveAsHadoopFile$4.apply$mcV$sp(PairRDDFunctions.scala:1067)
	at org.apache.spark.rdd.PairRDDFunctions$$anonfun$saveAsHadoopFile$4.apply(PairRDDFunctions.scala:1032)
	at org.apache.spark.rdd.PairRDDFunctions$$anonfun$saveAsHadoopFile$4.apply(PairRDDFunctions.scala:1032)
	at org.apache.spark.rdd.RDDOperationScope$.withScope(RDDOperationScope.scala:151)
	at org.apache.spark.rdd.RDDOperationScope$.withScope(RDDOperationScope.scala:112)
	at org.apache.spark.rdd.RDD.withScope(RDD.scala:385)
	at org.apache.spark.rdd.PairRDDFunctions.saveAsHadoopFile(PairRDDFunctions.scala:1032)
	at org.apache.spark.rdd.PairRDDFunctions$$anonfun$saveAsHadoopFile$1.apply$mcV$sp(PairRDDFunctions.scala:958)
	at org.apache.spark.rdd.PairRDDFunctions$$anonfun$saveAsHadoopFile$1.apply(PairRDDFunctions.scala:958)
	at org.apache.spark.rdd.PairRDDFunctions$$anonfun$saveAsHadoopFile$1.apply(PairRDDFunctions.scala:958)
	at org.apache.spark.rdd.RDDOperationScope$.withScope(RDDOperationScope.scala:151)
	at org.apache.spark.rdd.RDDOperationScope$.withScope(RDDOperationScope.scala:112)
	at org.apache.spark.rdd.RDD.withScope(RDD.scala:385)
	at org.apache.spark.rdd.PairRDDFunctions.saveAsHadoopFile(PairRDDFunctions.scala:957)
	at org.apache.spark.rdd.RDD$$anonfun$saveAsTextFile$1.apply$mcV$sp(RDD.scala:1544)
	at org.apache.spark.rdd.RDD$$anonfun$saveAsTextFile$1.apply(RDD.scala:1523)
	at org.apache.spark.rdd.RDD$$anonfun$saveAsTextFile$1.apply(RDD.scala:1523)
	at org.apache.spark.rdd.RDDOperationScope$.withScope(RDDOperationScope.scala:151)
	at org.apache.spark.rdd.RDDOperationScope$.withScope(RDDOperationScope.scala:112)
	at org.apache.spark.rdd.RDD.withScope(RDD.scala:385)
	at org.apache.spark.rdd.RDD.saveAsTextFile(RDD.scala:1523)
	at org.apache.spark.api.java.JavaRDDLike$class.saveAsTextFile(JavaRDDLike.scala:550)
	at org.apache.spark.api.java.AbstractJavaRDDLike.saveAsTextFile(JavaRDDLike.scala:45)
	at com.cqvip.analyzer.extract.NormalExtract.extract(NormalExtract.java:52)
	at com.cqvip.analyzer.extract.NormalExtract.main(NormalExtract.java:34)
	at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
	at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:62)
	at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
	at java.lang.reflect.Method.invoke(Method.java:498)
	at org.apache.spark.deploy.yarn.ApplicationMaster$$anon$2.run(ApplicationMaster.scala:685)

神思者

SuperGT hosts文件内容：

[root@vip-070 etc]# cat hosts
127.0.0.1   localhost localhost.localdomain localhost4 localhost4.localdomain4
::1         localhost localhost.localdomain localhost6 localhost6.localdomain6
192.168.31.26    vip-070
192.168.31.30    vips-155-vm03

这是否和hadoop集群中的机器的hosts文件未配置vip-070有关啊？

SuperGT

神思者加上后，还有问题吗？

神思者

SuperGT 在hadoop集群的所有机器的host中加上ip和hostname的映射就可以了