当前位置: > > > SpringBoot - 整合hadoop-client操作HDFS教程(附样例)

SpringBoot - 整合hadoop-client操作HDFS教程(附样例)

    在大数据处理领域,Hadoop 分布式文件系统(HDFS)是一个核心组件,负责存储和管理大规模数据集。本文将介绍如何在 Spring Boot 项目中整合 Hadoop 客户端,并展示具体的 HDFS 操作样例。

1,准备工作

(1)在 Spring Boot 项目的 pom.xml 文件中添加 Hadoop 客户端的依赖:
<dependency>
    <groupId>org.apache.hadoop</groupId>
    <artifactId>hadoop-client</artifactId>
    <version>3.2.0</version>
</dependency>

(2)在 application.properties 文件中配置 HDFS 连接信息:
hdfs.uri=hdfs://192.168.60.9:9000
hdfs.user=root

2,编写代码

(1)首先我编写一个 Hadoop 配置类 HadoopConfig,内容如下:
@Configuration  // 声明这是一个配置类,用于定义 Bean
public class HadoopConfig {

  @Value("${hdfs.uri}")  // 从配置文件中读取 HDFS URI
  private String hdfsUri;

  @Value("${hdfs.user}")  // 从配置文件中读取 HDFS 用户名
  private String hdfsUser;

  /**
   * 配置并返回一个 Hadoop FileSystem 对象
   */
  @Bean
  public FileSystem fileSystem() throws IOException, InterruptedException {
    // 创建一个新的 Hadoop 配置对象
    org.apache.hadoop.conf.Configuration configuration = new org.apache.hadoop.conf.Configuration();
    // 设置默认的文件系统 URI
    configuration.set("fs.defaultFS", hdfsUri);
    // 通过指定的 URI 和用户配置来获取 FileSystem 对象
    FileSystem fileSystem = FileSystem.get(URI.create(hdfsUri), configuration, hdfsUser);
    // 返回配置好的 FileSystem 对象
    return fileSystem;
  }
}

(2)接着编写一个控制器用于测试 HDFS 的创建目录、删除目录或文件、创建文件、读取文件等操作:
@RestController
@RequestMapping("/hdfs")  // 指定控制器的基本路径
public class HdfsController {

  @Autowired
  private FileSystem fileSystem;  // 自动注入 Hadoop 文件系统对象

  /**
   * 创建 HDFS 目录
   * @param path 要创建的目录路径
   * @return 创建成功返回 true,否则返回 false
   */
  @GetMapping("/mkdir")
  public boolean createDirectory(@RequestParam String path) throws IOException {
    Path dirPath = new Path(path);  // 将字符串路径转换为 Hadoop Path 对象
    return fileSystem.mkdirs(dirPath);  // 创建目录并返回操作结果
  }

  /**
   * 删除 HDFS 目录或文件
   * @param path 要删除的目录或文件路径
   * @param recursive 是否递归删除,如果为目录且非空,需要设置为 true
   * @return 删除成功返回 true,否则返回 false
   */
  @GetMapping("/delete")
  public boolean deleteDirectory(@RequestParam String path, @RequestParam boolean recursive)
          throws IOException {
    return fileSystem.delete(new Path(path), recursive);  // 删除指定路径并返回操作结果
  }

  /**
   * 在 HDFS 中创建文件并写入内容
   * @param path 要创建的文件路径
   * @param content 文件内容
   * @return 创建成功返回 true,否则返回 false
   */
  @GetMapping("/create")
  public boolean createFile(@RequestParam String path, @RequestParam String content)
          throws IOException {
    Path filePath = new Path(path);  // 将字符串路径转换为 Hadoop Path 对象
    try (FSDataOutputStream outputStream = fileSystem.create(filePath)) {  // 创建文件输出流
      outputStream.write(content.getBytes());  // 写入内容
    }
    return fileSystem.exists(filePath);  // 检查文件是否存在并返回结果
  }

  /**
   * 读取 HDFS 文件内容
   * @param path 要读取的文件路径
   * @return 文件内容字符串,如果文件不存在则返回 null
   */
  @GetMapping("/read")
  public String readFile(@RequestParam String path) throws IOException {
    Path filePath = new Path(path);  // 将字符串路径转换为 Hadoop Path 对象
    if (!fileSystem.exists(filePath)) {  // 检查文件是否存在
      return null;  // 文件不存在,返回 null
    }
    try (FSDataInputStream inputStream = fileSystem.open(filePath)) {  // 打开文件输入流
      return new String(IOUtils.readFullyToByteArray(inputStream));  // 读取文件内容并转换为字符串返回
    }
  }
}

3,运行测试

(1)启动服务,首先访问如下接口地址创建一个 /hangge 目录:
http://localhost:8080/hdfs/mkdir?path=/hangge
  • 可以看到 HDFS 上指定目录已经创建:

(2)访问如下接口地址删除 /hangge 目录:
http://localhost:8080/hdfs/delete?path=/hangge&recursive=true
  • 可以看到 HDFS 上指定目录已经被删除:

(3)访问如下地址在 HDFS 中创建文件并写入测试内容:
http://localhost:8080/hdfs/create?path=/hangge/test.txt&content=欢迎访问hangge.com
  • 可以看到指定文件已经被创建:

(4)访问如下地址读取 HDFS 上指定文件内容:
http://localhost:8080/hdfs/read?path=/hangge/test.txt
  • 可以看到浏览器返回文件内容如下:
评论0