数仓面经总结
美团拉链表的制作,数据量有多少,为什么不用快照表呢
拉链表会跟踪每个维度的变化,包括每次修改的历史,包含开始时间、结束时间、当前记录标识等字段
快照表只保留某个特定时刻的维度数据快照,不追踪变更,仅包含某个时间点的数据
数仓分层有哪些,具体做了什么,数仓分层作用
数仓分层架构包括ods、dwd、dwm、dws、ads
ODS层是接入层,从数据源(api、数据库等)将数据同步到数仓中,中间不做任何处理操作
DWD层是明细层,对ODS层的数据进行清洗、关联、转换、维度退化、建设主题域等操作
DWM层是轻度汇总层,是DWD和DWS层的过渡层次,对DWD层的生产数据进行轻度汇总和汇总统计,把复杂指标前置处理,提升公共指标的复用性,减少重复加工
DWS层汇总层,按主题域、颗粒度(如买卖家)划分,按照周期粒度、维度聚合,形成字段较多的宽表,用于提供后续的业务查询和应用。更重要的是要在DWS层完成指标口径统一和沉淀
ADS层是应用层,按照应用域,颗粒度划分(如买卖家)划分,按照应用主题将对应的数据标签补充至应用层,形成用户画像或专项应用
价值:分层的核心就是以空间换时间
使数据更清晰,简化复杂 ...
数仓开发学习笔记
数仓开发ODS层(接入层/贴源层)ods层用来对接数据源,同步用的
全量(full)——状态
增量(inc)——行为
业务分两大类:全量表和增量表
日志文件
业务表
全量表: DataX, 表结构与业务表保持一致
mysql : column[id, name, age]
data: 1001 zhangsan 30
hive: column[id, name, age]
增量表: Maxwell
JSON
最外层JSON对象的属性作为表的字段
DIM层维度层保存维度表,所以建模理论应该遵循维度建模理论
维度层中的维度表,主要用于统计分析
数据存储方式应该为列式存储:orc
数据压缩效率越高越好(时间短):snappy
维度模型
维度(状态)表
事实(行为)表
事实表是用来做统计的
维度表是用来做分析的
全量维度表:以天为单位将数据全部同步到维度表的相同时间分区中
补全数据
补全行: union
补全列: join
如果不影响结果用left join, 不用join
分区覆盖:insert overwrite ...
Hive
Hive学习知识概述Hive主要核心组件包含两个,一个是元数据的管理,一个是SQL解析器
启动Hive MetaStore
12# 启动 Hive MetaStore 服务$HIVE_HOME/bin/hive --service metastore &
ifconfig查看没有ens33连不上网络问题解决
ifconfig命令后没显示ens33
今天开启centos7时,连接不上网络,原先是🆗的,使用ifconfig进行查看
1234567891011121314151617[root@localhost ~]# ifconfiglo: flags=73<UP,LOOPBACK,RUNNING> mtu 65536 inet 127.0.0.1 netmask 255.0.0.0 inet6 ::1 prefixlen 128 scopeid 0x10<host> loop txqueuelen 1000 (Local Loopback) RX packets 0 bytes 0 (0.0 B) RX errors 0 dropped 0 overruns 0 frame 0 TX packets 0 bytes 0 (0.0 B) TX errors 0 dropped 0 overruns 0 carrier 0 collisions ...
四史(中共党史)期末
*自我革命
党的十八大以来,“自我革命”一词最早被用于描述全面深化改革
庆祝中国共产党成立95周年大会,号召全党“以自我革命的政治勇气,着力解决党内存在的各种问题,正式将“自我革命”这一概念运用到了党建领域
十九届中央纪委六次全会正式提出了党的自我革命的战略思想
党的二十大再次强调了党的自我革命的战略思想,并就党在新征程上进一步深入推进自我革命作出了重要战略部署
自我革命是中国共产党区别于其他政党的显著标志,体现马克思主义政党的鲜明品格,是中国共产党保持先进性和纯洁性的重要途径。党的自我革命是我们党跳出历史周期率的第二个答案,并为民族复兴伟业提供坚强保障。
自我革命是对马克思主义建党思想的运用和发展
自我革命是由我们党的崇高理想和光荣使命所决定的
自我革命是对党百余年奋斗历史经验的总结
例如,大革命失败后纠正陈独秀右倾机会主义错误,土地革命战争时期纠正””左”倾盲动错误和”左””倾冒险错误,改革开放初期,邓小平同志提出“铁老虎也要拍皮球”,坚决打击腐败现象,为国家现代化建设奠定了坚实基础。
自我革命是党不断祛杂质、强免疫、壮筋骨的需要
自我革命是对”建设什么样的长期执政的马克思主义 ...
VS Code配置C/C++环境
VS Code配置C/C++环境MinGW下载与配置配置好环境变量之后,用g++ --version来验证是否成功安装
.vscode下4个json文件配置在.vscode文件夹下创建四个文件,文件名如下:
1234c_cpp_properties.jsonlaunch.jsonsettings.jsontasks.json
c_cpp_properties.json
注意事项:
1)windowsSdkVersion的查询方法: Win+R组合键打开运行对话框,输入cmd,在终端中输入VER。经查询,本人计算机的windowsSdkVersion为10.0.26100.2454
2)compilerPath需要配置成g++的安装路径。本人的安装路径为C:/Program Files (x86)/Dev-Cpp/MinGW64/bin/g++.exe
123456789101112131415{ "configurations": [ { ...
软件设计师备考
软考知识概括
在冯诺依曼结构体系中,程序指令和数据存在同一个存储器中
存储器分类:
DRAM集成率相对较高,功耗相对较小,需要动态刷新
SRAM集成率相对较低,功耗相对较大,不需要动态刷新
CPU内部的子部件
通用寄存器
累加器
程序计数器
CISC普遍采用微程序控制器,RISC普遍采用硬布线控制器
I/O接口与打印机交换信息采用基于缓存池的异步方式
FTP是可靠但不安全的文件传输协议,TFTP是不可靠且不安全的文件传输协议
ICMP是Internet控制报文协议,与文件传输无关
SFTP是SSH文件传输协议
TLS是安全传输层协议
TCP是消息传输协议
DDOS是一种分布式拒绝服务攻击,这种攻击不属于计算机病毒
永恒之蓝、蠕虫、特洛伊木马都是计算机病毒
杀毒软件不能有效防止网站信息被篡改
在出口防火墙上配置ACL(访问控制列表)可以阻止外部未授权用户访问内部网络
入侵检测系统防护不了SQL注入
商标权的保护期是可以延长的
软件许可使用分为三种
独占:软件著作人不得将软件使用权授予第三方,且软件著作人不能使用该软件
独家:不可授予第三方,自 ...
Hadoop
前置知识概括大数据就是:使用分布式技术完成海量数据的处理,得到数据背后蕴含的价值
2008年Apache Hadoop开源了
在VMware的虚拟网络编辑器中,将VMnet8虚拟网卡的:
网段设置为:192.168.88.0
网关设置为:192.168.88.2
前置环境配置准备:
设置三台Linux虚拟机的主机名和固定IP
在Linux系统以及本机系统中配置了主机名映射
配置了三台服务器之间root用户的SSH免密互通
安装配置了JDK环境
关闭了防火墙和SELinux
更新了时区和同步了时间
拍摄快照保存状态
Hadoop可以提供:
分布式数据存储(HDFS)
分布式数据计算(MapReduce)
分布式资源调度(Yarn)
环境配置已经完成服务器创建、固定IP、防火墙关闭、Hadoop用户创建、SSH免密、JDK部署
HDFS集群配置配置HDFS集群,主要涉及如下文件的修改:
workers: 配置从节点(DataNode)有哪些
hadoop-env.sh 配置Hadoop的相关环境变量
core-site.xml ...
MySQL
基础篇知识概括windows查看mysql版本(三种方法):windows查看mysql版本(三种方法)_cmd查看mysql版本-CSDN博客
用MySQL之前记得先启动MySQL
客户端连接(win+cmd)之前记得先配置mysql\bin目录到环境变量中
语法:mysql -u root -p
如果出现版本号说明连接成功
DBMS:数据库管理系统
关系型数据库(RDBMS)
概念:建立在关系模型基础上,由多张相互连接的二维表组成的数据库
char(10):定长字符串(其余位置用空格来填充) varchar(10):变长字符串
图形界面化工具:Datagrip
注意:连接MySQL时需要启动MySQL,且密码和MySQL当时设置的密码一致
sql
sql语句不区分大小写,但关键词建议用大写
注释
单行注释:用”–” 或 “#”
多行注释:用/* */
SQL分类
DDL:数据定义语言,用来定义数据库对象(数据库,表,字段)
查询所有数据库show databases; 查询当前数据库select database();
查 ...
Linux操作系统
第一章知识概括VMware是一个提供虚拟化环境的软件,可以将Ubuntu Linux安装在里面
Ubuntu系统中找不到ifconfig命令:Ubuntu系统中找不到ifconfig命令_找不到命令 “ifconfig”,但可以通过以下软件包安装它: sudo apt install n-CSDN博客
输入ifconfig查看ip地址
快照功能
第二章知识点概括Linux没有盘符这个概念,只有一个根目录/,所有文件都在它下面
在Linux系统中,路径之间的层级关系,使用**:/**来表示
在Windows系统中,路径之间的层级关系,使用**:\**来表示
无论是什么命令,用于什么用途,在Linux中,命令有其通用的格式:command [-options] [parameter]
command:命令本身
-options:[可选,非必填]命令的一些选项,可以通过选项控制命令的行为细节
parameter:[可选,非必填]命令的参数,多数用于命令的指向目标等
ctrl+l可以清空findshell的屏幕
切换到root用户获得管理员权限 su - ...