日常我们进行大数据开发时,往往需要搭建相关的大数据环境,但这个过程十分费时且麻烦。如果我们只是进行开发或者学习时,可以直接使用一些现成的环境。 Cloudera QuickStart VM 是 Cloudera 提供的一个虚拟机镜像,用于快速体验和学习 Cloudera Hadoop 生态系统及相关的大数据技术......
,什么是大数据平台? (1)企业如果想从传统的数据处理转型到大数据处理,首先要做就是搭建一个稳定可靠的大数据平台。 (2)一个完整的大数据平台需要包含数据采集、数据存储、数据计算、数据分析、集群监控等功能,这就意味着其中需要包含 Flume、Kafka、Hadoop、Hive、HBase、Spark、Flink 等组件......
TrafficMonitor 是一款轻量级的系统监控软件,支持显示 CPU、内存、网络速度等信息。虽然 TrafficMonitor 提供了许多监控项目,但一直没有风扇转速的显示功能。本文以风扇转速显示插件为例,演示如何进行 TrafficMonitor 插件的开发。当然,如果需要直接使用该插件,可以查看我另一篇文章进行下载使用......
六月头条:SQL将走向何方? SQL 在 TIOBE 榜单中有着非凡的历史。当 TIOBE 榜单于 2001 年首次发布时,SQL 是被追踪的 20 种语言之一,当时它稳居前十名。而在 2004 年初,有人指出 SQL 并非一门编程语言。经过大量讨论后,最终决定将 SQL 从榜单中移除......
四、Azkaban 在数据仓库中的应用 1,需求说明 (1)在企业中构建离线数据仓库时,由于任务数量较多,并且很多任务之间都有依赖关系,所以需要深度使用分布式任务调度系统。 (2)这里以 Azkaban 为例,针对离线数据仓库中的电商 GMV 指标统计进行演示......
二、配置一个定时执行的独立任务 1,创建项目 (1)在 Aakaban 的页面中单击“Create Project”按钮,指定项目名称为 test (2)创建后的效果如下图所示: 2,创建任务文件 (1)在本地系统中创建一个任务文件 hello.job,文件内容如下: 内容说明: 以 # 号开头的内容是注释。 type:任务类型......
Azkaban 是由 Linkedin 开源的一个批量工作流任务调度器,用于在一个工作流内以一个特定的顺序运行一组工作和流程。本文将演示如何进行 Azkaban 的安装和使用。 一、安装配置 1,准备 Azkaban 安装包 (1)安装 Azkaban 相对来说会比较麻烦,因为官方没有直接提供二进制安装包......
1,什么是 DolphinScheduler? (1)DolphinScheduler(原 EasyScheduler)是由中国易观公司开源的一款分布式、去中心化、易扩展的可视化 DAG 工作流任务调度平台。该平台致力于解决数据处理流程中错综复杂的依赖关系,使调度系统在数据处理流程中“开箱即用”......
1,什么是 Oozie? (1)Oozie 是由 Cloudera 公司贡献给 Apache 的基于工作流引擎的开源框架,主要用于 Hadoop 平台的开源工作流调度。 (2)Oozie 默认集成在 CDH 大数据平台中,如果企业中的大数据平台是使用 CDH 搭建的,那么在选择调度任务时使用 Oozie 会比较顺手......
1,什么是 Azkaban? (1)Azkaban 是由 Linkedin 开源的一个批量工作流任务调度器,用于在一个工作流内以一个特定的顺序运行一组工作和流程。 (2)Azkaban 定义了一种 Key-Value 格式来建立任务之间的依赖关系,并提供一个易于使用的 Web 用户界面维护和跟踪工作流......