Vol.14 说说我的数据仓库建设"最佳实践" 上周粗浅地聊了聊我对一个成熟数据仓库的设想,都是空谈理论,今天想记录一下一些可以实操的东西。同事经常提醒我,平时我时候容易抓不住重点,后续写东西尽量简介,能 50 个字说明白的东西,就不用 100 字。 开发规范 统一开发脚本,离线任务建议通过 sh 脚本封装提交,将公共参数跟执行函数封装好,在脚本开头统一 source 环境变量,并且脚本分段,比如分成:环境参数变量、SQL内容、执行提交、结果 2023-03-12 数据仓库 #周更挑战
Vol.13 浅谈数据仓库DataWarehouse 数据仓库是什么数据仓库是什么?根据 Google Cloud 的介绍: 数据仓库是一种企业系统,用于分析和报告来自多个来源的结构化和半结构化数据,例如销售终端交易、营销自动化、客户关系管理等。数据仓库适用于点对点分析以及自定义报告。数据仓库可以将当前数据和历史数据都存储在一个地方,旨在提供长期数据视图,这使其成为商业智能的主要组成部分。 从这个介绍来看,我们可以将数据仓库理解为一个业务数据跟日志 2023-03-05 数据仓库 #周更挑战
Vol.12 Kafka 核心工作原理小记 消息队列简介概述消息队列MQ用于实现两个系统或模块之间传递消息数据时, 实现数据缓存 功能基于队列方式, 实现传递消息的数据缓存 应用场景 实时高性能高吞吐量高可靠的消息传递架构 大数据应用: 作为唯一的实时数据存储平台 实时数据采集: 生产写入Kafka 数据数据处理: 消费读取Kafka 优点 解耦 异步保证最终一致性, 提高传输性能 限流削峰 缺点 运行更复杂, 必须保证消费队列是可靠的 2023-02-26 数据仓库 #周更挑战 #Kafka
Vol.11 Hadoop核心工作原理小记 记录一下曾经学习 Hadoop 的笔记,温故知新,现在 Hadoop 已经到 3.x 版本,但是很多机制跟原理还是一致的。 HDFS分布式文件系统设计目标1、硬件故障是常态 2、HDFS上的应用与一般的应用不同,它们主要是以流式读取数据,更注重数据访问的高吞吐量 3、典型的HDFS文件大小是GB到TB的级别 4、大部分HDFS应用对文件要求的是write-one-read-many访问模型,一次写 2023-02-19 数据仓库 #周更挑战 #Hadoop
Vol.10 Spark核心工作原理小记 整理学习 Spark 相关知识的笔记,查缺补漏。不得不说整理的时候重新捡起了很多遗忘的知识,Scala 我也很久很久没有写了, 现在公司用的是 Pyspark ,后面也整理记录下 Pyspark 的相关笔记。 Spark 组件的数据抽象和上下文对象SparkCore 数据抽象: RDD 上下文对象: SparkContext SparkSQL 数据抽象: DataFrame DataSet 2023-02-12 Spark #Spark #周更挑战
Vol.09 M1款 MacBookPro 搭建 JupyterLab 数据分析环境 Python 用于数据分析的优势我就不多赘述,虽然当前基本不写 Python,但是我经常需要阅读 Python 代码,看别人写的数据处理逻辑,所以开始进一步学习 Pyspark 相关的知识。Jupyter 应该是学习 Python 数据分析最佳的工具了,趁着刚刚安装完,记录下自己环境配置跟常用的工具。 miniconda 安装提到 Python 数据分析大家一般推荐 Anaconda,minic 2023-02-05 Spark #Spark #周更挑战 #Python
Vol.08 人性之恶,实难揣测----读《连城诀》 《连城诀》被评价作金庸的十五部武侠小说中最具现实主义、批判主义的一部,里面写尽了人性的阴暗面,金庸先生这部小说里要探讨的就是人性的肮脏罪恶。我是第二遍看这部小说了,读到万震山半夜梦游砌墙的情节,还是觉得瘆得慌。我总觉得金庸先生是以最恶意的角度去塑造书中的人物的,对于书中的各个人物我都是以消极负面地角度去看待他的行为的。鲁迅曾说: 我向来是不惮以最坏的恶意来推测中国人的。 小说里的人物,很好的 2023-01-29 阅读 #周更挑战 #读书
Vol.07《流浪地球2》值得一看 今晚 8 点去电影院看 《流浪地球2》,看到机核电影场大家的评价,充满了期待。我对翻拍充满一种抵触情绪,即使拍得再好,可能都会破坏原著在我心目中的地位,因为文字的魅力在于你可以充分想象,一旦可视化之后可能会破坏心中美好的画面。因此,我喜欢《流浪地球》这样,基于原著背景重新创作的作品,既能有原著的魅力精髓,又能在此之上融入导演编剧自己的想法跟创意,可以相对不受束缚地讲述新的故事。 是我喜欢的中国 2023-01-23 普通生活 #周更挑战
Vol.06 工作中使用MySQL遇到的几个小坑 MySQL 是工作当中经常使用到一个开源数据库,我当前工作主要使用 MySQL 作为报表存储数据库,以及承接数据提供给到下游业务使用。使用过程中遇到很多很多坑,都是小问题但是碰到了处理起来也是比较繁琐,特别记录一下。 分区问题MySQL 数据库使用 InnoDB 引擎的时候是支持分区的,MySQL数据库的分区是局部分区索引,一个分区中既存了数据跟索引。聚集索引和非聚集索引都存放在分区当中。MyS 2023-01-15 MySQL #周更挑战
Vol.05 坚持运动一年让我的生活充满力量 本周超级猩猩出了 2022 年度运动报告,全年除了有一两个月因为疫情跟阳了门店停业,每周都坚持去超级猩猩上团课。全年锻炼 126 天,完成 161 次训练,上了 18 节早课,33 节晚课,上了 89 节 BC ,28 节 BJ 跟 23 节 RPM,全年上课时长 9410 分钟。感谢坚持努力的自己,过去一年平均 3 天就去上一次团课,我还是坚持了下来,爱上了运动,运动也改变了我,让我的生活充满 2023-01-08 普通生活 #周更挑战