石家庄做手机网站推广,最近七天的新闻大事,如何自己建一个网站,做美食视频网站11.1.0语境关系图 11.1 Q 建立数据仓库#xff0c;有哪些步骤#xff1f;如何建设#xff1f;【6 个步骤非常重要#xff01;必须知道】
1. 理解需求#xff08;P#xff09;#xff08;目的明确#xff0c;ETL#xff09;
(1) 考虑业务目标和业务战略。 (2) 确定业…11.1.0语境关系图 11.1 Q 建立数据仓库有哪些步骤如何建设【6 个步骤非常重要必须知道】
1. 理解需求P目的明确ETL
(1) 考虑业务目标和业务战略。 (2) 确定业务领域并框定范围。 (3) 访谈了解业务人员需求问题及访问的数据。 (4) 掌握关键指标和计算口径。
2. 定义和维护 DW 和 BI 架构P
(1) 确定数据仓库/商务智能技术架构。 (2) 确定数据仓库/商务智能管理流程。
3. 开发数据仓库和数据集市D【建立表】
(1) 建立源到目标的映射关系。 (2) 修正和转换数据。
4. 加载数据仓库D (1) 工作量最大的部分。 (2) 延迟要求【时延决定了数据加载方法实时加载/CDC/流数据加载】、源可用性、批处理时间窗口。 (3) 数据质量问题。
5. 实施 BI 产品组合D【多给几个产品自己编程、PowerBI、Rapidminer等】 (1) 根据需要对用户进行分组。 (2) 将工具与用户要求匹配。
6. 维护数据产品O
(1) 发布管理。 (2) 管理数据产品开发生命周期。 (3) 监控和调优加载过程。 (4) 监控和调优商务智能活动和性能。
11.2 OLAPOLTP 差别【可能会考】 Q1OLAP 和 OLTP 差别有哪些【多选题】 A1OLTP 用于日常交易处理OLAP 用于查询、分析、决策 OLTP 用于简单小事务操作少量数据OLAP 用于复杂查询、大量数据 OLTP 数据一般为当前最新数据实时数据规模 GBOLAP 一般为历史数据批量数据规模 TB-PB OLTP 一般满足三范式OLAP 一般逆规范化反范式星型模型 OLTP 用户一般为操作人员、低层管理人员OLAP 一般为决策人员高级管理人员 OLTP 的 DB 设计为面向应用OLAP 设计为面向主题OLTP 软件技术为数据库OLAP 软件技术为数据仓库。
Q2index 索引快速搜索用在 OLAP 还是 OLTP A2OLAP。
Q3逆规范化用在 OLAP 还是 OLTP A3OLAPOLTP 应满足 3NF。
用作 OLAP 的软件NetezzaHadoopHiva开源不建议用性能很慢。
三种经典的 OLAP 实现方法 1关系型联机分析处理ROLAP。 ROLAP 通过在在关系数据库RDBMS的二维表中使用多维技术来支持 OLAP。星型架构是 ROLAP 环境中常用的数据库设计技术。 2多维矩阵型联机分析处理MOLAP。 MOLAP 通过使用专门的多维数据库技术支持 OLAP。【数据量有限制现在用的不多】。 3混合型联机分析处理HOLAP。 ROLAP 和 MOLAP 的结合。HOLAP实现允许部分数据以 MOLAP 形式存储而另一部分数据存储在ROLAP中。控件的实现方式各不相同设计师对分区的组合也各有不同。
11.3 F2 数仓的主要组件有哪些【主要 3 个】’
数据仓库是一个由 源系统、数据集成 ETL 加载、数据存储区域 必须中央数据仓库可选ODS、立方体、数据集市、主数据、暂存区等众多组件组成的数据管理系统。
11.4 商务智能
商务智能是一套完整的数据解决方案旨在用来将企业中现有的数据进行有效的整合快速提供的提供报表并提出决策依据帮助企业做出明智的业务经营决策的一系列分析活动和技术应用常见的应用包括统计分析、仪表盘、数据大屏等。 以业务人员用数需求为中心固定报表、指标多维查询分析、明细数据、管理层决策仪表盘、移动端可视化应用、数据挖掘模型应用、数据模板。 Q商务智能与数仓、大数据区别 A商务智能 BI 主要用作前端分析展现统计分析、仪表盘、数据大屏powerBI。 数仓是后台主要用于管理后端数据hive数据仓库与商务智能不一样数据仓库强调 BI。 大数据强调 AI。
涉及银行金融机构客户领域、风控领域、运营领域。 新客户获取模型、客户交叉营销模型、客户细分明细模型、客户激活模型、客户价值提升模型、客户维挽模型、支付路径优化模型、客户经营能力分析模型、内部审计模型、客户信用风险预警模型、贷款控制点分析、盈利能力预测模型、网点选址模型。
11.5 F1Inmon 和 Kimball 关于数仓的差别有哪些
Inmon数据仓库之父关系型Kimball 多维性。 企业信息工厂Bill Inmon企业信息工厂是两种主要的数据仓库建设模式之一是面向主题的、整合的、随时间变化的、包含汇总和明细的、稳定的历史数据集合。 多维数据仓库Ralph Kimball多维数据仓库是数据仓库开发的另一个主要模式仓库数据存储在多维数据模型中以维度和事实定义。 常见模型包括星型和雪花型等。 Q1张三2021 年上海卖出多少车维度和指标多维模型 A14 个维度员工张三时间 2021 年地点上海产品汽车1 个指标多少辆。 Kimball 图更清晰组件及组件之间的关系需要了解血缘关系。注意 kimball 图中右侧数据访问工具至数据展示区的访问箭头数据访问工具中区分 BI 和 AI BI即席查询、报表撰写、分析型应用 AI模型预测、打分、数据挖掘。 考试暂时不用管上面 2 个图。
11.6 F4Q 数仓、数据湖、数据中台的相同点和不同点有哪些【重要】
数仓 结构化数据进入数仓、ETL、业务场景是明确的交付物对已经发生的事情的总结或展现侧重 BI但也可以做 AI国内企业100%。 数据湖 结构化数据非结构化数据进入数据湖ELT业务场景是不一定明确的交付物对未知的预测或挖掘侧重 AI也可以做BI国内企业40%。 数据中台 建设在数仓、数据湖之上更多的是打标签、归类等工作平台层数据在数仓、数据湖中在此基础上建设数据中台【阿里巴巴图是关键】国内企业 20%。 关系数据仓库构建了企业级的数据模型大数据平台在此基础上进行拓展解决了海量、实时数据的计算和存储问题而数据中台则是将数据服务化后提供给业务系统目标是将数据能力渗透到各个业务环节。 上图为阿里巴巴示范图从下往上国外示范图习惯从左往右。 数据源→采集与转化→平台层→数据中台。
Q1采集与转化中由哪几部分构成
A1一般由 4 部分构成
1结构化数据采集 ETLESB
2非结构化数据采集File
3实时数据采集 Kafkaws
4流数据无法进入数仓需要在数据湖中处理。Q2阿里巴巴认为的平台层有哪些
A231 数据仓库、大数据平台所谓的数据湖、实时数据处理、数据实验室不上生产系统做 POC。平台层之上为数据中台阿里巴巴创造名称上图中绿色部分主要为指标、标签等工作如精准营销、业务分析、智能客服、客户洞察、产品洞察、行业洞察、智能运营、风险监控、财务分析、大数据运维、数据可视化、数据共享、标签库、离线分析、在线分析、海量检索、机器学习、NLP 自然语言处理、计算机视觉、知识图谱/关系图谱。
11.7 F5 数仓和数据湖的架构图【最有可能画设计图数仓、数据湖、数据中台非常重要】 数据通过源运营系统进入集结区域可直接到 ODS也可以进入中心仓库。注意 ODS 双向箭头中心仓库ODS 不是进入数仓的必备环节而是与数仓平级阿里巴巴图是不正确的ODS 不是贴源层。最下方 DW 也可以进数据湖。 右侧上方影响报告为 BI下方比较、评估、预测、学习为 AI。 目前 BI 软件不能用作 AI 分析但 AI 软件Rapidminer部分可用作BI。 阿里巴巴图 Iso组件、组件之间的关系、设计原则。
Q2已经有数仓的情况下为什么还要建设数据湖
A2判断业务场景客服中心接电话由经理监听电话判断是否认真工作现在有音频要求但目前数仓无法处理音频所以需要建设数据湖如果有大量非结构化数据需要处理建立数据湖。11.8 ETL 和 ELT 区别【面试会问】 ETL目标数据仓库。 ELT目标数据湖。
11.9 F3 数据分析的自助服务是什么PPTP85
Dataselfservice 低代码软件无需编程PowerBI 出BI 报告Rapidminer人工智能做预测及挖掘。 根据用户权限提供各种功能。 按照标准计划推送给用户。 提供自助服务。通过门户执行报表取数。 以业务为中心构建仪表板。
11.10 F6 数仓的一些疑难问题比如 SCD、星型和雪花模型的融合等
Q1SCD 如何解决【参考第 5 章】 A1渐变类维度 slow changing dimensions 1.覆盖 Overwrite新值覆盖旧值。 2.新行 New Row新值写在新行中旧行被标记为非当前值。 3.新列 New Column一个值的多个实例列在同一行的不同列中而一个新值意味着将系列中的值向下一点写入以便在前面为新值流出空间。最后一个值被丢弃。
Q2星型和雪花模型
A2星型没有层级日期维度雪花模型有层级关系如日期→月→季→年。
Q3CDC change Data capture 增量抽取方法【可能会考选择题】
A34 种 CDC 方法时间戳增量加载、日志表增量加载、数据库交易日志、消息增量数据量最大的 CDC 是全量加载。11.11 F7 指标体系
数据自助服务有赖于 2 部分建设元数据管理首要工作指标体系建设。 建立企业级指标体系的意义纵向、横向比较。指标口径清晰统一规范 支持用户的自助灵活用数有效控制报表开发成本。 Q针对银行业金融机构有哪些指标 A核心价值指标盈利性指标、业务运营指标、资源和局限性指标、宏观经济指标等。 关键指标对银行的业务经营和管理决策具有重要意义作为核心价值指标的补充通过指标重要性评分得出形成上百个关键指标提供用户使用。 常用指标绩效考核、风险管理、财务报告、监管统计。 基础指标库客户经理指标、产品经理指标、信贷评审员指标。数据来源系统涵盖外部监管如银监会、人民银行统计要求、银行高管统计需求如行长报告、各业务条线统计需求如支付结算、信用卡、产品管理、投资理财、渠道管理、客户资产管理、投资银行、信贷、贸易融资等、机构和员工绩效考核需求、以及同业领先实践补充。
建立指标和维度的主题应用场景和多维模型不再是传统意义上的多维模型而是 ROLAP基于关系型数据库对接多维方法的多维模型。
Q保障指标落地难点有哪些 A1调整组织架构 2主数据定了标准可能无法贯标 3指标体系。 相关软件 PowerBI 创建报表。 Kettle 做 ETL美国用 talend 较多。 Mahout 做推荐引擎。 CIA、美国军方使用组合数据仓库数据库 Netezza数据集成ETL Obention前端 palantir找到本拉登的《指环王》剧中能穿越时空、看到一切的水晶球。 在数仓中规划落实元数据 案例上海一家银行指标体系3k 多指标。 参考书《阿里巴巴零售模型白皮书》。