Hive自动化建库建表 前言说明项目数仓数据源太多,于是自己写了一个工具类,读取数据源的元数据信息,自动建库建表 以 MySQL 为例,代码如下。 HiveUtilobject HiveUtil { def main(args: Array[String]): Unit = { createHiveTable() } def createHiveTable() = 2020-09-12 数据仓库 #Hive
Sqoop自动化抽取数据与验证 前言说明最近项目业务数据源多种多样,用 Sqoop 抽取数据到数仓是一个体力活,底层又是基于 MapReduce 执行的,速度感人,关键是还得做数据校验 于是想着自己写个工具类,和自动建表建库类似,自动读取数据源表和字段信息,创建对应脚本,扔到 DolphinScheduler 上自动跑就完事。 基本步骤1. 自定义工具类,读取 MySQL 中 information_schema 库下的 TAB 2020-09-12 数据仓库 #Shell #Hive #Sqoop
大数据常用脚本 一键启动一键启动常用服务#!/bin/bash if [ ! $1 ] then echo "please input [start|stop]" exit 1 fi #start hadoop echo " ----------- $1 dfs ------------ " ssh root@node01 "source /etc/profile 2020-06-10 存档 #Shell #Hive #Spark #Sqoop #Kafka
多表连接过滤条件在 on 和 where 的区别 前言介绍最近项目中的小坑,记录一下。 数据准备create table student ( sid int primary key not null , cid int null, t_sex varchar(20) null ) comment '学生表'; create table t_score ( si 2020-05-24 Debug记录 #SQL #MySQL
大数据常用命令 MySQL# 启动 service mysqld start systemctl start mysql[d] # 关闭 service mysqld stop #设置mysql开机启动 chkconfig mysqld on Hadoop# 全局组件启动与停止 start-all.sh stop-all.sh # HDFS 启动与停止 start-dfs.sh stop-dfs.sh # 2020-05-13 存档 #Shell #Hive #Spark #Sqoop #Kafka
我的第一篇博客 努力写博客, 总结经验教训, 学习永远在路上感觉 GitHub Page 真的太方便了,随时随地可以开始写打算把常用的资料文档命令放到博客上,debug 记录也放上来,还有学习笔记与项目总结 2020-04-27 其他 #规划