惊羽的博客
  • 首页
  • 归档
  • 分类
  • 标签
  • 关于
Hive自动化建库建表

Hive自动化建库建表

前言说明项目数仓数据源太多,于是自己写了一个工具类,读取数据源的元数据信息,自动建库建表 以 MySQL 为例,代码如下。 HiveUtilobject HiveUtil { def main(args: Array[String]): Unit = { createHiveTable() } def createHiveTable() = &#
2020-09-12
数据仓库
#Hive
Sqoop自动化抽取数据与验证

Sqoop自动化抽取数据与验证

前言说明最近项目业务数据源多种多样,用 Sqoop 抽取数据到数仓是一个体力活,底层又是基于 MapReduce 执行的,速度感人,关键是还得做数据校验 于是想着自己写个工具类,和自动建表建库类似,自动读取数据源表和字段信息,创建对应脚本,扔到 DolphinScheduler 上自动跑就完事。 基本步骤1. 自定义工具类,读取 MySQL 中 information_schema 库下的 TAB
2020-09-12
数据仓库
#Shell #Hive #Sqoop
大数据常用脚本

大数据常用脚本

一键启动一键启动常用服务#!/bin/bash if [ ! $1 ] then echo "please input [start|stop]" exit 1 fi #start hadoop echo " ----------- $1 dfs ------------ " ssh root@node01 "source /etc/profile
2020-06-10
存档
#Shell #Hive #Spark #Sqoop #Kafka
多表连接过滤条件在 on 和 where 的区别

多表连接过滤条件在 on 和 where 的区别

前言介绍最近项目中的小坑,记录一下。 数据准备create table student ( sid int primary key not null , cid int null, t_sex varchar(20) null ) comment '学生表'; create table t_score ( si
2020-05-24
Debug记录
#SQL #MySQL
大数据常用命令

大数据常用命令

MySQL# 启动 service mysqld start systemctl start mysql[d] # 关闭 service mysqld stop #设置mysql开机启动 chkconfig mysqld on Hadoop# 全局组件启动与停止 start-all.sh stop-all.sh # HDFS 启动与停止 start-dfs.sh stop-dfs.sh #
2020-05-13
存档
#Shell #Hive #Spark #Sqoop #Kafka
我的第一篇博客

我的第一篇博客

努力写博客, 总结经验教训, 学习永远在路上感觉 GitHub Page 真的太方便了,随时随地可以开始写打算把常用的资料文档命令放到博客上,debug 记录也放上来,还有学习笔记与项目总结
2020-04-27
其他
#规划
1…345

搜索

Hexo Fluid
总访问量 次 总访客数 人