十二月头条:C# 有望成为 2023 年的年度编程语言 我们之前曾谈论过这个问题。在 2022 年末,似乎 C# 将成为那一年的编程语言。但在最后一刻,C++ 意外地夺得了这个称号。今年,我们更加确信 C# 将会获胜。它的得分在 1 年内增长了 +2.38%,而其最接近的竞争者......
通过自定义数据源,我们可以从非标准输入源接收流式数据,这在一些特定业务场景下十分有用。要实现自定义数据源,只需要继承 Receiver,并实现 onStart、onStop 方法来自定义数据源采集即可,下面通过样例进行演示。 四、自定义数据源 1,自定义数据源之 Socket......
Kafka 作为一个高性能的消息队列系统,为实时数据流的传输和处理提供了强大的支持。下面我将介绍如何使用 Spark Streaming 与 Kafka 集成,实现从 Kafka 主题中读取数据并进行简单的实时统计分析。 三、使用 Kafka 作为输入数据源 1,添加依赖 首先编辑项目的 pom.xml 文件......
在上一篇文章中,我介绍了 Spark Streaming 的基本概念和架构。本文我将进一步探讨 Spark Streaming 的基本输入源,包括文件流、套接字流以及 RDD 队列流。我们可以将这些输入源的数据流转换为 DStream,从而实时处理各种数据。 二、基本输入源 1:文件流......
一、基本概念介绍 1,Spark Streaming (1)Spark Streaming 是 Apache Spark 提供的用于实时数据处理的组件。它通过将连续的实时数据流划分为一系列小批次来处理数据。这种离散的批处理操作使得 Spark Streaming 具有与传统的批处理作业相似的编程模型......
七、案例实操:各区域热门商品 Top3 1,数据说明 (1)首先 user_visit_action.txt 文件中存放了所有用户的行为记录,下面是截取其中的一部分内容: 文件中每行数据的详细字段说明如下: 编号 字段名称 字段类型 字段含义 1 date String 用户点击行为的日期 2 user_id Long 用户的 ID 3 session_id String Session 的 ID......
我在之前的文章中介绍了如何读取 HBase 表中数据转换为 RDD,以及如何将 RDD 中的数据保存到 HBase 数据库中(点击查看)。本文接着介绍如何通过 SparkSQL 来实现读写 HBase 中的数据。 六、HBase 的读取与写入 1,准备测试数据 (1)首先我们启动 HBase 的 shell 命令行工具......
五、Kafka 的读取与写入 1,准备工作 首先编辑项目的 pom.xml 文件,添加Kafka相关的依赖: 2,输出数据到 Kafka (1)这种方式输出离线处理的结果, 将已存在的数据分为若干批次进行处理,处理完毕后程序退出......
一、UDF(用户自定义函数) 1,基本介绍 UDF(User-Defined Function)是用户自定义函数,它允许我们在 Spark SQL 中创建自定义函数,以对 DataFrame 中的每个元素进行处理,并返回一个新的元素。 UDF 可以用于单个数据项的转换,类似于对 DataFrame 的某一列进行自定义操作......
一、SQL 语法 1,基本介绍 SQL 语法是一种结构化查询语言,用于处理和管理关系型数据。在 Spark SQL 中,我们可以使用标准的 SQL 查询语句来对注册的临时视图或者全局视图进行操作。 SQL 语法非常直观,对于熟悉 SQL 的用户来说非常友好......