Hive自动化建库建表

Hive自动化建库建表

前言说明项目数仓数据源太多，于是自己写了一个工具类，读取数据源的元数据信息，自动建库建表以 MySQL 为例，代码如下。 HiveUtilobject HiveUtil { def main(args: Array[String]): Unit = { createHiveTable() } def createHiveTable() = &#

2020-09-12

数据仓库

#Hive

Sqoop自动化抽取数据与验证

Sqoop自动化抽取数据与验证

前言说明最近项目业务数据源多种多样，用 Sqoop 抽取数据到数仓是一个体力活，底层又是基于 MapReduce 执行的，速度感人，关键是还得做数据校验于是想着自己写个工具类，和自动建表建库类似，自动读取数据源表和字段信息，创建对应脚本，扔到 DolphinScheduler 上自动跑就完事。基本步骤1. 自定义工具类，读取 MySQL 中 information_schema 库下的 TAB

2020-09-12

数据仓库

#Shell #Hive #Sqoop

大数据常用脚本

大数据常用脚本

一键启动一键启动常用服务#!/bin/bash if [ ! $1 ] then echo "please input [start|stop]" exit 1 fi #start hadoop echo " ----------- $1 dfs ------------ " ssh root@node01 "source /etc/profile

2020-06-10

存档

#Shell #Hive #Spark #Sqoop #Kafka

多表连接过滤条件在 on 和 where 的区别

多表连接过滤条件在 on 和 where 的区别

前言介绍最近项目中的小坑，记录一下。数据准备create table student ( sid int primary key not null , cid int null, t_sex varchar(20) null ) comment '学生表'; create table t_score ( si

2020-05-24

Debug记录

#SQL #MySQL

大数据常用命令

大数据常用命令

MySQL# 启动 service mysqld start systemctl start mysql[d] # 关闭 service mysqld stop #设置mysql开机启动 chkconfig mysqld on Hadoop# 全局组件启动与停止 start-all.sh stop-all.sh # HDFS 启动与停止 start-dfs.sh stop-dfs.sh #

2020-05-13

存档

#Shell #Hive #Spark #Sqoop #Kafka

我的第一篇博客

我的第一篇博客

努力写博客, 总结经验教训, 学习永远在路上感觉 GitHub Page 真的太方便了，随时随地可以开始写打算把常用的资料文档命令放到博客上，debug 记录也放上来，还有学习笔记与项目总结

2020-04-27

其他

#规划