生产环境_Spark接收传入的sql并替换sql中的表名与解析_非常NB

背景        

开发时遇到一个较为复杂的周期需求,为了适配读取各种数据库中的数据并将数据库数据转换为DataFrame并进行后续的开发分析工作,做了如下代码。       

        在爷们开发这段生产中的代码,可适配mysql,hive,hbase,gbase等等等等,基本涉及到数据库的情况基本可以进行。可以说是非常之NB!!!!!了

数据流程:

由于该代码片段主要关注数据处理流程,而非实际数据内容,,当然,我也不能把特殊数据给大家展示,后面有时间再造一批test数据吧,因此没有提供样例数据。不过,可以根据实际使用的数据库和表结构,提供相应的样例数据以供测试和验证。

具体的数据自己造就行了,咱这段逻辑时经过大数据量考验的

代码v1:

import org.apache.spark.storage.StorageLevel
import org.apache.spark.sql.functions.{udf,col,date_format}
import scala.util.matching.Regex

//2024,lee研发适配,可以说,这段代码的通用性非常高非常NB!!!
//time:202401GZ
// https://blog.csdn.net/qq_52128187?type=blog
//获取数据库中的数据并转为dataframe,可以使hbase,也可以是mysql
val table="数据库传出的数据"
val dfin=inputRDD(table).asInstanceOf[org.apache.spark.sql.DataFrame]
dfin.createOrReplaceTempView(s"`$table`")
dfin.show(3)
val sql_table = "sql条件"
val sql = inputRDD(sql_table).asInstanceOf[String]
println("打印前序导出的sql:  " + sql)

//正则结合sql与df,获取最终数据
val regex = new Regex("(?!)from\\s+[^\\s]+")
val actualSql = regex.replaceFirstIn(sql,s"from `${table}`")
println("打印最终sql:"+actualSql)

//解析sql
val resultDf = spark.sql(actualSql)
resultDf.show(10,false)

代码V2:

在另一个环境测试时,上面的代码运行时出现了一个bug,如下

org.apache.spark.sql.AnalysisException: 
org.apache.hadoop.hive.ql.metadata.HiveException: Unable to fetch table all_beforexxxxx.
 Exception thrown when executing query :
 SELECT DISTINCT 'org.apache.hadoop.hive.metastore.model.MTable' AS 
`NUCLEUS_TYPE`,`A0`.`CREATE_TIME`,`A0`.`LAST_ACCESS_TIME`,`A0`.`OWNER`,`A0`.`OWNER_TYPE`,
`A0`.`RETENTION`,`A0`.`TBL_NAME`,`A0`.`TBL_TYPE`,`A0`.`TBL_ID` FROM `TBLS` `A0` 
LEFT OUTER JOIN `DBS` `B0` ON `A0`.`DB_ID` = `B0`.`DB_ID` 
WHERE `A0`.`TBL_NAME` = ? AND `B0`.`NAME` = ?;

        问题描述:详细排查了一下,是由于解析sql语句时出现了一个bug,但是我在另一个环境这样写是可以解析的,神奇哦,

        问题解决:我是如何解决的呢?一看就是解析表的时候出现问题,定位代码是正则表达式的问题。修改后的代码:

import org.apache.spark.storage.StorageLevel
import org.apache.spark.sql.functions.{udf,col,date_format}
import scala.util.matching.Regex

//2024
//2024,lee研发适配,可以说,这段代码的通用性非常高非常NB!!!
//time:202401GZ
// https://blog.csdn.net/qq_52128187?type=blog
//获取数据库中的数据并转为dataframe,可以使hbase,也可以是mysql
val table="数据_tegeXNph"
val dfin=inputRDD(table).asInstanceOf[org.apache.spark.sql.DataFrame]
dfin.createOrReplaceTempView(s"`$table`")
dfin.show(3)

//获取sql语句
val sql_table = "sql条件导出_周期"
val sql = inputRDD(sql_table).asInstanceOf[String]
println("打印前序导出的sql:  " + sql)

//正则结合sql与df,获取最终数据
// val regex = new Regex("(?!)from\\s+[^\\s]+"),会报错
//org.apache.spark.sql.AnalysisException: org.apache.hadoop.hive.ql.metadata.HiveException: Unable to fetch table all_before_xxx. Exception thrown when executing query : SELECT DISTINCT 'org.apache.hadoop.hive.metastore.model.MTable' AS `NUCLEUS_TYPE`,`A0`.`CREATE_TIME`,`A0`.`LAST_ACCESS_TIME`,`A0`.`OWNER`,`A0`.`OWNER_TYPE`,`A0`.`RETENTION`,`A0`.`TBL_NAME`,`A0`.`TBL_TYPE`,`A0`.`TBL_ID` FROM `TBLS` `A0` LEFT OUTER JOIN `DBS` `B0` ON `A0`.`DB_ID` = `B0`.`DB_ID` WHERE `A0`.`TBL_NAME` = ? AND `B0`.`NAME` = ?;

val regex = new Regex("from\\s+(\\S+)") // 做了排查bug修改修改后的正则表达式  
val actualSql = regex.replaceFirstIn(sql,s"from `${table}`")
println("打印最终sql:"+actualSql)

//解析sql
val resultDf = spark.sql(actualSql)
resultDf.show(10,false)

相关推荐

最近更新

  1. TCP协议是安全的吗?

    2024-02-02 11:36:01       16 阅读
  2. 阿里云服务器执行yum,一直下载docker-ce-stable失败

    2024-02-02 11:36:01       16 阅读
  3. 【Python教程】压缩PDF文件大小

    2024-02-02 11:36:01       15 阅读
  4. 通过文章id递归查询所有评论(xml)

    2024-02-02 11:36:01       18 阅读

热门阅读

  1. 在CentOS 7上安装MySQL 8.0

    2024-02-02 11:36:01       34 阅读
  2. Power BI 不重复计数函数

    2024-02-02 11:36:01       38 阅读
  3. C语言结构体赋值的四种方式

    2024-02-02 11:36:01       35 阅读
  4. 使用Eigen3计算旋转平移缩放矩阵

    2024-02-02 11:36:01       34 阅读
  5. 【Node系列】创建第一个服务器应用

    2024-02-02 11:36:01       33 阅读
  6. day9笔记

    2024-02-02 11:36:01       31 阅读
  7. Golang防止注入常用方法

    2024-02-02 11:36:01       30 阅读
  8. SpringBoot整理-微服务

    2024-02-02 11:36:01       31 阅读
  9. 为什么golang不支持可重入锁呢?

    2024-02-02 11:36:01       35 阅读
  10. 爬虫学习:下厨房的菜谱搜索

    2024-02-02 11:36:01       32 阅读