Hbase 无法删除表问题及解决办法 问题描述 正常删除表格的方法 # 禁用表 disable "TRIPDB:trip_sample" # 删除表 drop "TRIPDB:trip_sample" 但是操作过程中出现如下的问题 已经禁用表 hbase(main):005:0> disable "TRIPDB:trip_sample" ERROR: Tab 2021-03-20 Debug记录 #Hbase #Linux
Hive数仓缓慢渐变维之拉链表 缓慢渐变维主要是为了解决, 是否需要在数仓中维护历史变化的数据操作 注意:如果不维护一个数据的历史变化信息, 那么在进行数仓分析的时候, 是有可能对未来分析的结果产生影响 实现缓慢维的3种方式 **SCD1** 对于历史变化的数据, 是进行维护操作, 直接进行覆盖即可 此种操作仅适合于对于错误数据处理 **SCD2(拉链表)--常用** 对原有表, 增加两个新的字段, 一个是起始的时间字段,一个 2021-03-05 数据仓库 #Hive
牛客网SQL练习总结 补充知识补充知识整理1.一张表可以多次被引用使用 2.筛选条件包含某个值, 这个值可以通过子查询求出, 再通过 where 条件判断 3.子查询没有符合要求的条件会直接返回 null 4.insert ignore into 相当于 replace 5.创建视图格式: create view actor_name_view as + 字段列表(查询结果等) 6.查询强制走索引: from 表名 2021-02-13 面试准备 #SQL #MySQL
Redis常见面试题 前言说明学习和整理 Redis 相关的知识当中,这里汇总了一下经常被问到的 Redis 面试题 Redis 的八股无外乎这三个:缓存穿透、缓存击穿、缓存雪崩。 分片集群问题1.Redis的多数据机制了解多少1.Redis支持多个数据库,单机模式下有从db0到db15, 数据库之间不能共享 2.分片集群中只有一个数据库空间,不会使用到Redis的多数据库 2.懂Redis的批量操作吗1.有mget 2021-01-07 面试准备 #Redis
WordCount案例汇总 前言说明整理一下曾经学习技术栈练习过的 WordCount 案例,总之很多计算引擎的样例都是 WordCount 经典永不过时,使用的很多函数和方法也是常用的。 MapReduceMapTaskpackage com.test; import org.apache.hadoop.io.IntWritable; import org.apache.hadoop.io.LongWritable; i 2020-11-06 日常工作 #Spark #Hadoop #Scala #Flink
管理配置文件的工具:Commons Configuration 一般读取配置文件,或者说集群环境传参的方式有如下几种: 1、Main 程序留出参数入口,通过 args 接收参数,运行 jar 的时候传入参数 2、将配置文件放入 resources ,通过类加载器获取参数文件,或者创建专门工具类读取resources 中的配置文件信息 这两种方法各有优缺点,第一种虽然修改参数非常方便,但是当需要指定的参数较多时会繁琐; 第二种方式将配置文件一起打成 jar 包, 2020-10-20 日常工作 #Flink #Java
更好的日志框架:logback 基本介绍Logback 是由 log4j 创始人设计的另一个开源日志组件 官方网站: http://logback.qos.ch 它分为下面下个模块: logback-core:其它两个模块的基础模块 logback-classic:它是 log4j 的一个改良版本,同时它完整实现了 slf4j API使你可以很方便地更换成其它日志系统如 log4j 或 JDK14 Logging logba 2020-10-10 日常工作 #Spark #Flink #Java
Apache Spark:分布式并行计算框架(三) Spark on Hive 面试题:spark on hive和hive on spark区别???? 典型基于Spark和Hive离线数仓架构技术图,简易版本: 1、SparkSQL分析数据 2、Hive 管理元数据 | Spark on Hive 架构,离线数据仓库分析 SparkSQL与Hive集成,本质就是Spark Application应用程序,读取加载HiveMe 2020-10-03 Spark #Spark
Apache Spark:分布式并行计算框架(二) 1、Spark 有哪些优化第一、公共优化 1、序列化(Serialization) Spark中默认序列化方式: Java 序列化(Java serialization) 要求数据类型必须实现序列化接口Serializable,比如HBase数据库读取数据时,封装到Result 设置序列化为:Kryo 序列化 比Java序列化性能提升10倍以上 设置: conf.set(&quo 2020-09-28 Spark #Spark
Apache Spark:分布式并行计算框架(一) 0、前言说明整理和汇总一下 Spark 容易混淆的概念和理论。 1、Spark 框架概念 Apache Spark™ is a unified analytics engine for large-scale data processing. 1、unified 统一 Spark 框架可以对任意业务需求进行数据分析 批处理:SparkCore、交互式分析:SparkSQL、流式计算:Spar 2020-09-22 Spark #Spark