一、Standalone 模式介绍 1,基本介绍 (1)Flink 的 Standalone 模式 是 Flink 集群的一种部署方式,特点是独立运行在一组物理或虚拟机上,无需依赖外部的资源管理框架(如 Hadoop YARN 或 Kubernetes)。 (2)在这种模式下,用户需要手动配置集群中的各个节点......
一、基本介绍 1,什么是 parallelism(并行度)? (1)一个 Flink 程序由多个组件组成(Source、Transformation 和 Sink)。 一个组件由多个并行实例(线程)来执行, 一个组件的并行实例(线程)数目就被称为该组件的并行度。 (2)举两个例子 比如 kafka 某个 topic 数据量太大......
在日常的工作和学习过程中,图表(如流程图、思维导图、ER 图等)是梳理逻辑、呈现信息的重要工具。通常来说,我们会使用 Visio 等专业图表软件进行绘制,但由于其价格昂贵、操作复杂,并且不支持苹果 macOS 系统,让许多用户望而却步。这里我推荐一款完全免费、功能强大且零门槛的在线工具......
一、功能说明 1,整体架构介绍 (1)下面是一个某电商网站数据大屏整体架构: 当用户在 PC 或 App 上提交一个订单后,业务系统会通过日志的方式记录这条订单的相关数据。 使用 Filebeat 这个日志采集工具采集前端业务机器上的日志数据。这里采集的日志数据其实就是用户的订单数据......
前文我演示了如何利用 Flink-Kafka-Connector 从 Kafka 中读取数据流 (Source),本文接着通过样例演示如何利用 Kafka Sink 将数据流写入一个或多个 Kafka topic。 二、将数据流写入 Kafka(Kafka Sink) 1,准备工作 首先,我们创建一个 Maven 项目,然后......
对于长期使用 Windows 系统的用户来说,硬盘空间总会在不知不觉中被各种文件吞噬。无论是微信聊天记录的自动缓存,还是 Steam 游戏的更新包,亦或是临时文件堆积,都可能让我们的 C 盘突然亮起"红色警报"。这里我介绍一款在 Windows 平台上非常实用的工具:TreeSize,它不仅免费好用,还能帮我们快速找到占用大量空间的大文件......
Flink 社区提供了丰富的连接器(Connectors)以方便与不同的数据源进行交互,其 Flink-Kafka-Connector 是 Flink 提供的一个专门用于与 Kafka 集成的组件。通过这个连接器,用户可以轻松地从 Kafka 中读取数据流 (Source)或将数据流写入到 Kafka(Sink)。本文首先介绍如何从 Kafka 中读取数据......
Flink 针对延迟太久的数据有 3 种处理方案:丢弃、允许数据延迟一定时间、收集迟到的数据。下面通过样例分别进行演示。 一、丢弃 1,基本介绍 link 默认对迟到的数据的处理方案就是丢弃。 2,样例演示 (1)这里我们使用上文编写的 WaterMark 样例代码......
在日常办公、开发或者多任务处理过程中,我们常常需要让某个窗口始终保持在其他窗口之上。PinWin 就是一款专为解决这一需求而设计的小巧工具。下面我将详细介绍如何安装和使用这款软件。 1,基本介绍 (1)PinWin 是一款专为 Windows 用户设计的轻量级开源工具......
一、基本介绍 1,Flink 中时间概念 (1)EventTime:事件发生时间,是事件发生所在设备的当地时间,比如一个点击事件的时间发生时间,是用户点击操作所在的手机或电脑的时间。 (2)IngestionTime:事件摄入时间,即事件进入 Flink 的时间。 (3)processTime:事件处理时间......