diff --git a/pom.xml b/pom.xml
index 8a3f8ac..46f7648 100644
--- a/pom.xml
+++ b/pom.xml
@@ -114,7 +114,7 @@
1.5.5
nohive
1.6.0
- 9.3.24.v20180605
+ 9.4.24.v20191120
3.1.0
0.9.3
2.4.0
diff --git a/sql/xsql/docs/docs/datasources/druid.md b/sql/xsql/docs/docs/datasources/druid.md
index 83b73e1..0cbc1ee 100644
--- a/sql/xsql/docs/docs/datasources/druid.md
+++ b/sql/xsql/docs/docs/datasources/druid.md
@@ -14,8 +14,8 @@ Druid接入XSQL的配置继承了[Configurations](../configurations/common.md)
```
xsql.conf文件:
spark.xsql.datasource.mydruid.type DRUID
-spark.xsql.datasource.mydruid.uri http://r883.dfs.shbt.qihoo.net:8082
-spark.xsql.datasource.mydruid.coordinator.uri r883.dfs.shbt.qihoo.net:8081
+spark.xsql.datasource.mydruid.uri http://druidhostname:8082
+spark.xsql.datasource.mydruid.coordinator.uri druidhostname:8081
spark.xsql.datasource.mydruid.user xxxx
spark.xsql.datasource.mydruid.password xxxx
spark.xsql.datasource.mydruid.version 0.10.1
@@ -238,4 +238,4 @@ TAKE BACK RETURN 382377564 749815.1810177844 14995638
COLLECT COD 382410465 749926.601011185 14995241
DELIVER IN PERSON 382437327 749621.3410196826 14994611
NONE 382512680 750010.1210143827 15000562
-```
\ No newline at end of file
+```
diff --git a/sql/xsql/docs/docs/datasources/hbase.md b/sql/xsql/docs/docs/datasources/hbase.md
index ef1a0f6..1966827 100644
--- a/sql/xsql/docs/docs/datasources/hbase.md
+++ b/sql/xsql/docs/docs/datasources/hbase.md
@@ -16,7 +16,7 @@ HBase是一个分布式的、面向列的开源数据库,旨在为非结构化
spark.xsql.datasources hbase_ds_name
spark.xsql.default.datasource hbase_ds_name
spark.xsql.datasource.hbase_ds_name.type hbase
-spark.xsql.datasource.hbase_ds_name.host jlxx.sys.lyct.qihoo.net,jlxx.sys.lyct.qihoo.net,jlxx.sys.lyct.qihoo.net
+spark.xsql.datasource.hbase_ds_name.host hostname1,hostname2,hostname3
spark.xsql.datasource.hbase_ds_name.port 2181
# 配置元数据存储文件名称,需要放置在SPARK_CONF_DIR中
spark.xsql.datasource.hbase_ds_name.schemas hbase.schemas
diff --git a/sql/xsql/docs/docs/performance_report/elasticsearch.md b/sql/xsql/docs/docs/performance_report/elasticsearch.md
index cc63466..1ce35c6 100644
--- a/sql/xsql/docs/docs/performance_report/elasticsearch.md
+++ b/sql/xsql/docs/docs/performance_report/elasticsearch.md
@@ -8,7 +8,6 @@ Elasticsearch的性能测试报告分为基于TPCDS的性能测试报告和基
**虚拟机版本**: Java HotSpot(TM) 64-Bit Server VM (build 25.60-b23, mixed mode)
-**测试机器**: client01v.qss.zzzc.qihoo.net、clientadmin.dfs.shbt.qihoo.net
**XSQL配置**:
@@ -157,4 +156,4 @@ Elasticsearch的性能测试报告分为基于TPCDS的性能测试报告和基
### **结论**
- XSQL [Pushdown]相比于直接调用Elasticsearch的API,执行性能仅有约30毫秒的损耗。
-- XSQL借助于Spark执行时,执行效率很低。
\ No newline at end of file
+- XSQL借助于Spark执行时,执行效率很低。
diff --git a/sql/xsql/docs/docs/performance_report/hbase.md b/sql/xsql/docs/docs/performance_report/hbase.md
index 17bb1e9..3a52287 100644
--- a/sql/xsql/docs/docs/performance_report/hbase.md
+++ b/sql/xsql/docs/docs/performance_report/hbase.md
@@ -8,7 +8,6 @@ HBase的性能测试报告主要是基于TPCDS的性能测试报告。
**虚拟机版本**: Java HotSpot(TM) 64-Bit Server VM (build 25.60-b23, mixed mode)
-**测试机器**: client01v.qss.zzzc.qihoo.net、clientadmin.dfs.shbt.qihoo.net
**XSQL配置**:
diff --git a/sql/xsql/docs/docs/performance_report/hive.md b/sql/xsql/docs/docs/performance_report/hive.md
index 7cc721b..c5e3480 100644
--- a/sql/xsql/docs/docs/performance_report/hive.md
+++ b/sql/xsql/docs/docs/performance_report/hive.md
@@ -8,7 +8,6 @@ Hive的性能测试报告分为基于TPCDS的性能测试报告和基于业务
**虚拟机版本**: Java HotSpot(TM) 64-Bit Server VM (build 25.60-b23, mixed mode)
-**测试机器**: client01v.qss.zzzc.qihoo.net、clientadmin.dfs.shbt.qihoo.net
**XSQL配置**:
@@ -146,4 +145,4 @@ Hive的性能测试报告分为基于TPCDS的性能测试报告和基于业务
### **结论**
- XSQL相比于Hive,执行性能得到明显的提升。
-- 子查询、连接操作,XSQL配给Executor的内存多少,对执行时间也有影响。
\ No newline at end of file
+- 子查询、连接操作,XSQL配给Executor的内存多少,对执行时间也有影响。
diff --git a/sql/xsql/docs/docs/performance_report/mongo.md b/sql/xsql/docs/docs/performance_report/mongo.md
index e6972fa..0257cc4 100644
--- a/sql/xsql/docs/docs/performance_report/mongo.md
+++ b/sql/xsql/docs/docs/performance_report/mongo.md
@@ -8,7 +8,6 @@ MongoDB的性能测试报告分为基于TPCDS的性能测试报告和基于业
**虚拟机版本**: Java HotSpot(TM) 64-Bit Server VM (build 25.60-b23, mixed mode)
-**测试机器**: client01v.qss.zzzc.qihoo.net、clientadmin.dfs.shbt.qihoo.net
**XSQL配置**:
diff --git a/sql/xsql/docs/docs/performance_report/multi_datasource.md b/sql/xsql/docs/docs/performance_report/multi_datasource.md
index 4f9b126..5c29c1c 100644
--- a/sql/xsql/docs/docs/performance_report/multi_datasource.md
+++ b/sql/xsql/docs/docs/performance_report/multi_datasource.md
@@ -10,7 +10,6 @@
**虚拟机版本**: Java HotSpot(TM) 64-Bit Server VM (build 25.60-b23, mixed mode)
-**测试机器**: client01v.qss.zzzc.qihoo.net、clientadmin.dfs.shbt.qihoo.net
**XSQL配置**:
@@ -116,4 +115,4 @@
### 结论
-上图分析可知,执行ElasticSearch与MySQL的混合查询时,两个数据源下推的执行效率要高于非下推的执行效率;尤其对于ES的执行,非下推时执行很慢,并且有时子查询执行会出现超时错误。
\ No newline at end of file
+上图分析可知,执行ElasticSearch与MySQL的混合查询时,两个数据源下推的执行效率要高于非下推的执行效率;尤其对于ES的执行,非下推时执行很慢,并且有时子查询执行会出现超时错误。
diff --git a/sql/xsql/docs/docs/performance_report/mysql.md b/sql/xsql/docs/docs/performance_report/mysql.md
index ebce32c..b27ff41 100644
--- a/sql/xsql/docs/docs/performance_report/mysql.md
+++ b/sql/xsql/docs/docs/performance_report/mysql.md
@@ -8,8 +8,6 @@ MySQL性能测试报告是基于业务数据的性能测试报告。
**虚拟机版本**: Java HotSpot(TM) 64-Bit Server VM (build 25.60-b23, mixed mode)
-**测试机器**: client01v.qss.zzzc.qihoo.net
-
**xsql配置**:
- Driver Memory: 5G
@@ -125,4 +123,4 @@ MySQL性能测试报告是基于业务数据的性能测试报告。
**Note**
-以上结论的得出受数据量、SQL语句及测试环境的影响,仅供参考。
\ No newline at end of file
+以上结论的得出受数据量、SQL语句及测试环境的影响,仅供参考。
diff --git a/sql/xsql/docs/docs/performance_report/redis.md b/sql/xsql/docs/docs/performance_report/redis.md
index eaa5d93..84161c4 100644
--- a/sql/xsql/docs/docs/performance_report/redis.md
+++ b/sql/xsql/docs/docs/performance_report/redis.md
@@ -8,7 +8,6 @@ Redis的性能测试报告主要是基于TPCDS的性能测试报告。
**虚拟机版本**: Java HotSpot(TM) 64-Bit Server VM (build 25.60-b23, mixed mode)
-**测试机器**: client01v.qss.zzzc.qihoo.net、clientadmin.dfs.shbt.qihoo.net
**XSQL配置**:
@@ -51,4 +50,4 @@ Redis的性能测试报告主要是基于TPCDS的性能测试报告。
- 对于点查询,使用jedis api查询用时为0.003s,使用xsql查询用时约为0.05s。
- 对于scan类型的查询,使用jedis api和xsql的查询性能均不理想,用时估算方法为:每1万/延迟3s。
-- 更新:采用pipeline方法后,用时估算方法为第1万/延迟0.3s。
\ No newline at end of file
+- 更新:采用pipeline方法后,用时估算方法为第1万/延迟0.3s。
diff --git a/sql/xsql/docs/docs/troubleshooting/common.md b/sql/xsql/docs/docs/troubleshooting/common.md
index 49183a3..b3eb27f 100644
--- a/sql/xsql/docs/docs/troubleshooting/common.md
+++ b/sql/xsql/docs/docs/troubleshooting/common.md
@@ -21,12 +21,12 @@
queue: root.test
start time: 1544780544655
final status: UNDEFINED
- tracking URL: http://test.qihoo.net:8888/proxy/application_1543893582405_838478/
+ tracking URL: http://testhostname:8888/proxy/application_1543893582405_838478/
user: test
18/12/14 17:42:32 INFO Client: Application report for application_1543893582405_838478 (state: ACCEPTED)
```
-其中的tracking URL为http://test.qihoo.net:8888/proxy/application_1543893582405_838478/,从浏览器打开页面将看到类似信息:
+其中的tracking URL为http://testhostname:8888/proxy/application_1543893582405_838478/,从浏览器打开页面将看到类似信息:
```properties
User: test
@@ -46,7 +46,7 @@ Diagnostics:
可以看到状态也是ACCEPTED。并且队列是root.test。
-打开http://test.qihoo.net:8888/cluster/scheduler?openQueues=root.test,找到root.test队列的资源,将看到如下信息:
+打开http://testhostname:8888/cluster/scheduler?openQueues=root.test,找到root.test队列的资源,将看到如下信息:
```properties
Used Resources:
@@ -168,7 +168,7 @@ ERROR executor.CoarseGrainedExecutorBackend: RECEIVED SIGNAL 15: SIGTERM
```
Job aborted due to stage failure: Task 2 in stage 3.0 failed 4 times, most recent failure:
-Lost task 2.3 in stage 3.0 (TID 28, hpc152.sys.lycc.qihoo.net, executor 11):
+Lost task 2.3 in stage 3.0 (TID 28, hpchostnam, executor 11):
org.apache.spark.SparkException: Kryo serialization failed: Buffer overflow. Available: 2, required: 8
```
合理设置spark.kryoserializer.buffer.max,spark.kryoserializer.buffer
diff --git a/sql/xsql/docs/docs/tutorial/configuration.md b/sql/xsql/docs/docs/tutorial/configuration.md
index d41f91b..f6b036d 100644
--- a/sql/xsql/docs/docs/tutorial/configuration.md
+++ b/sql/xsql/docs/docs/tutorial/configuration.md
@@ -14,6 +14,7 @@
| spark.xsql.datasource.$dataSource.whitelist | None | 用于指定数据源的Database及Table白名单。由于一些数据源中有大量的Database及Table,所以会导致启动XSQL时花费大量的时间。另一方面,每个用户只对其中的少数Database及Table感兴趣,因此可以提供白名单加速XSQL的启动。 |
| spark.xsql.datasource.$dataSource.pushdown | true | 用于控制指定数据源的查询是否优先采用下推方式。此配置将建议XSQL对此数据源的查询使用下推方式,但是并不能保证。很多情况下,XSQL并不会下推,例如:数据源查询还包含有其他数据源的子查询,或者引用了外部查询的别名。 |
| spark.xsql.datasource.$dataSource.schemas | None | 用于定义数据源中表的Schema信息。只适用于无严格Schema的数据源,例如:Redis、HBASE、MongoDB |
+| spark.xsql.datasource.$dataSource.schemas.discover | false | 对于无严格Schema的数据源,使用spark.xsql.datasource.$dataSource.schemas指定Schema配置文件,对于用户不太友好,而且一些复杂数据类型的定义(例如:ElasticSearch的nested类型)也十分繁琐。XSQL提供了对schema信息进行探索的能力,用户可以打开此开关,启用schema探索。注意:目前,此配置只对ElasticSearch和MongoDB有效。 |
| spark.xsql.datasource.$dataSource.cache.level | 1 | 用于指定数据源的元数据缓存级别,1表示Level One,2表示Level Two。 |
| spark.xsql.datasource.$dataSource.cluster | None | 用于定义数据源优先采用的Yarn集群。如果用户首次提交非下推的任务,那么此任务将会被提交到对应的Yarn集群。如果未指定此配置,对于Hive将选择Hive元数据服务所在的集群,其他数据源则仍然选择$XSQL_HOME/hadoopconf/yarn-site.xml文件所配置的Yarn集群。 |
| spark.xsql.yarn.$clusterName | None | 用于指定用户使用的Yarn集群的名称及相关配置文件。 |
@@ -173,7 +174,7 @@ yarn-cluster0.conf文件中的配置信息可能为:
```properties
spark.yarn.stagingDir hdfs://namenode.dfs.cluster0.yahoo.com:9000/home/spark/cache
spark.hadoop.yarn.resourcemanager.cluster-id cluster0-yarn
-spark.hadoop.yarn.resourcemanager.zk-state-store.address m2.dfs.cluster0.qihoo.net:2181,m3.dfs.cluster0.yahoo.com:2181,m4.dfs.cluster0.yahoo.com:2181,m5.dfs.cluster0.yahoo.com:2181,m6.dfs.cluster0.yahoo.com:2181
+spark.hadoop.yarn.resourcemanager.zk-state-store.address m3.dfs.cluster0.yahoo.com:2181,m4.dfs.cluster0.yahoo.com:2181,m5.dfs.cluster0.yahoo.com:2181,m6.dfs.cluster0.yahoo.com:2181
spark.hadoop.yarn.resourcemanager.zk-address m2.dfs.cluster0.yahoo.com:2181,m3.dfs.cluster0.yahoo.com:2181,m4.dfs.cluster0.yahoo.com:2181,m5.dfs.cluster0.yahoo.com:2181,m6.dfs.cluster0.yahoo.com:2181
spark.hadoop.yarn.resourcemanager.zk-state-store.parent-path /cluster0/yarn/rmstore
spark.hadoop.yarn.resourcemanager.hostname.rm1 m7.dfs.cluster0.yahoo.com