航歌 - 做最好的开发者知识平台

DolphinScheduler - 核心原理、特点、以及架构详解

2025-06-07

155

1，什么是 DolphinScheduler？（1）DolphinScheduler（原 EasyScheduler）是由中国易观公司开源的一款分布式、去中心化、易扩展的可视化 DAG 工作流任务调度平台。该平台致力于解决数据处理流程中错综复杂的依赖关系，使调度系统在数据处理流程中“开箱即用”......

Oozie - 核心原理、特点、以及架构详解

2025-06-06

34

1，什么是 Oozie？（1）Oozie 是由 Cloudera 公司贡献给 Apache 的基于工作流引擎的开源框架，主要用于 Hadoop 平台的开源工作流调度。（2）Oozie 默认集成在 CDH 大数据平台中，如果企业中的大数据平台是使用 CDH 搭建的，那么在选择调度任务时使用 Oozie 会比较顺手......

Azkaban - 核心原理、特点、以及架构详解

2025-06-05

33

1，什么是 Azkaban？（1）Azkaban 是由 Linkedin 开源的一个批量工作流任务调度器，用于在一个工作流内以一个特定的顺序运行一组工作和流程。（2）Azkaban 定义了一种 Key-Value 格式来建立任务之间的依赖关系，并提供一个易于使用的 Web 用户界面维护和跟踪工作流......

分布式任务调度系统的功能、作用以及常见框架对比（Azkaban、Oozie、DolphinScheduler）

2025-06-04

111

1，任务调度系统的作用（1）随着企业中计算需求的极速增加，离线任务的数量越来越多，每天凌晨需要运行上千个离线任务。这些任务不能同时执行，因为可能会导致集群资源瞬间占满，进而影响线上任务的稳定性。（2）其实这些离线任务只要能在每天早上上班之前执行完毕......

2025中国大学排行榜（前500名完整排名榜单）

2025-06-03

1429

一年一度的大学百强排行榜又出来了，目前国内各个版本的大学排行榜中，软科、CNUR、武书连和校友会这四个版本的大学排名知名度较高，影响较大。本次展示软科和校友会这两个版本，高中同学们可以做个参考，已经毕业的就看个热闹吧。一、软科版2025年大学排行榜......

SpringBoot - 实现基于Elasticsearch+HBase全文检索系统教程3（建立索引及搜索数据）

2025-05-31

49

五、通过 Elasticsearch 对 HBase 中的数据建立索引 1，数据字段分析（1）通过 Elasticsearch 对 HBase 中的数据建立索引在开发数据索引功能之前，需要先根据需求设计 Elasticsearch 索引库的 setting 和 mapping 信息： setting 信息主要包括索引库的分片和副本参数。 mapping 信息主要包括字段的类型、是否存储......

SpringBoot - 实现基于Elasticsearch+HBase全文检索系统教程2（数据采集及存储）

2025-05-30

33

我在前文介绍了全文检索系统的实现流程以及项目的基本配置，本文接着介绍如何采集数据并将数据保存到 HBase 和 Redis 中去。四、数据采集及存储 1，数据说明（1）这里我们使用极速数据提供的新闻 API 接口来获取数据（2）返回的数据为如下 JSON 格式......

SpringBoot - 实现基于Elasticsearch+HBase全文检索系统教程1（架构设计、安装配置）

2025-05-29

39

一、全文搜索系统需求分析 1，需求说明企业有一套爬虫程序，每天都会到互联网上抓取海量的文章数据，对于这些文章数据有以下需求：要实现海量文章数据存储，支持数据更新需求。提供针对海量文章数据的快速复杂查询功能。 2，需求分析（1）Elasticsearch 最擅长的是快速复杂查询......

SpringBoot - Spring Data Elasticsearch使用详解2（使用ElasticsearchRepository）

2025-05-28

64

Spring Data Elasticsearch 提供了两种不同方式用于与 Elasticsearch 进行交互的，分别是 ElasticsearchRestTemplate 和 ElasticsearchRepository。我在之前的文章中详细介绍了前者的使用（点击查看），本文接着介绍 ElasticsearchRepository 的使用......

SpringBoot - Spring Data Elasticsearch使用详解1（使用ElasticsearchRestTemplate）

2025-05-27

203

在之前的文章中介绍了如何使用 Elasticsearch 官方提供的 Java REST 客户端 Elasticsearch Rest Client 实现与 Elasticsearch 的集成。而在 SpringBoot 项目中，我们还可以选择 Spring Data Elasticsearch 这个客户端，它集成于 Spring 生态系统，与 Spring Boot 等框架良好结合......