通俗来讲,数据中台是指利用大数据技术对海量数据统一进行采集、计算和存储,并对外提供数据服务。 数据中台其实可以这样理解:它负责采集企业全域数据,然后存储起来,接着通过加工计算打通数据之间的关系,最后以 API 的形式对外提供数据服务。 (2)在目前中台的多个方向中,数据中台是最为火热的......
一、什么是数据仓库? 1,数据仓库的定义 数据仓库(Data Warehouse)是包含企业各个业务线数据的集合,主要用于支撑企业管理人员的决策。 2,数据仓库的特性 (1)面向主题 主题就是类型的意思。 传统数据库主要是为应用程序进行数据处理,未必按照主题存储数据......
HDP 是 Hortonworks Data Platform 的缩写,是一个专为企业大数据需求而设计的开源数据管理平台,它集成了许多各种大数据相关的功能和组件。本文演示如何使用 Docker 进行一键部署 HDP Sandbox,其内置了完整的 Hortonworks Data Platform,供了一个安全、隔离的环境,让用户可以体验和学习大数据技术......
日常我们进行大数据开发时,往往需要搭建相关的大数据环境,但这个过程十分费时且麻烦。如果我们只是进行开发或者学习时,可以直接使用一些现成的环境。 Cloudera QuickStart VM 是 Cloudera 提供的一个虚拟机镜像,用于快速体验和学习 Cloudera Hadoop 生态系统及相关的大数据技术......
,什么是大数据平台? (1)企业如果想从传统的数据处理转型到大数据处理,首先要做就是搭建一个稳定可靠的大数据平台。 (2)一个完整的大数据平台需要包含数据采集、数据存储、数据计算、数据分析、集群监控等功能,这就意味着其中需要包含 Flume、Kafka、Hadoop、Hive、HBase、Spark、Flink 等组件......
TrafficMonitor 是一款轻量级的系统监控软件,支持显示 CPU、内存、网络速度等信息。虽然 TrafficMonitor 提供了许多监控项目,但一直没有风扇转速的显示功能。本文以风扇转速显示插件为例,演示如何进行 TrafficMonitor 插件的开发。当然,如果需要直接使用该插件,可以查看我另一篇文章进行下载使用......
六月头条:SQL将走向何方? SQL 在 TIOBE 榜单中有着非凡的历史。当 TIOBE 榜单于 2001 年首次发布时,SQL 是被追踪的 20 种语言之一,当时它稳居前十名。而在 2004 年初,有人指出 SQL 并非一门编程语言。经过大量讨论后,最终决定将 SQL 从榜单中移除......
四、Azkaban 在数据仓库中的应用 1,需求说明 (1)在企业中构建离线数据仓库时,由于任务数量较多,并且很多任务之间都有依赖关系,所以需要深度使用分布式任务调度系统。 (2)这里以 Azkaban 为例,针对离线数据仓库中的电商 GMV 指标统计进行演示......
二、配置一个定时执行的独立任务 1,创建项目 (1)在 Aakaban 的页面中单击“Create Project”按钮,指定项目名称为 test (2)创建后的效果如下图所示: 2,创建任务文件 (1)在本地系统中创建一个任务文件 hello.job,文件内容如下: 内容说明: 以 # 号开头的内容是注释。 type:任务类型......
Azkaban 是由 Linkedin 开源的一个批量工作流任务调度器,用于在一个工作流内以一个特定的顺序运行一组工作和流程。本文将演示如何进行 Azkaban 的安装和使用。 一、安装配置 1,准备 Azkaban 安装包 (1)安装 Azkaban 相对来说会比较麻烦,因为官方没有直接提供二进制安装包......