【SparkML系列2】DataSource读取图片数据

DataSource(数据源)

在本节中,我们将介绍如何在机器学习中使用数据源加载数据。除了一些通用的数据源,如 Parquet、CSV、JSON 和 JDBC 外,我们还提供了一些专门用于机器学习的数据源。

###Image data source(图像数据源)
该图像数据源用于从目录加载图像文件,它可以通过 Java 库中的 ImageIO 加载压缩图像(jpeg、png 等)到原始图像表示。加载的 DataFrame 有一个 StructType 列:“image”,包含存储为图像模式的图像数据。图像列的模式是:

origin:StringType(表示图像的文件路径)
height:IntegerType(图像的高度)
width:IntegerType(图像的宽度)
nChannels:IntegerType(图像通道的数量)
mode:IntegerType(与 OpenCV 兼容的类型)
data:BinaryType(以 OpenCV 兼容的顺序排列的图像字节:在大多数情况下为逐行 BGR)


import org.apache.spark.sql.SparkSession

/**
 * @description TODO
 * @date 2024/1/31 15:30
 * @author by fangwen1
 */
object ImageDataSource {
   

  def main(args: Array[String]): Unit = {
   
    val spark = SparkSession
      .builder
      .master("local[*]")
      .appName("ImageDataSource")
      .getOrCreate()
    //.format("image") 告诉 Spark 读取器数据是以图像格式存储的,而 .option("dropInvalid", true) 设置了一个选项,指示读取器在加载过程中丢弃任何无效的图像文件。
    val df = spark.read.format("image").option("dropInvalid", true).load("data/mllib/images/origin/kittens")

    df.select("image.origin", "image.width", "image.height", "image.nChannels", "image.mode").show(truncate=false)


    //.format("libsvm") 告诉 Spark 读取器数据是以 LIBSVM 格式存储的,而 .option("numFeatures", "780") 设置了一个选项,指定特征向量的数量为 780。
    val df1 = spark.read.format("libsvm").option("numFeatures", "780").load("data/mllib/sample_libsvm_data.txt")
    df1.show()
  }
}

最近更新

  1. TCP协议是安全的吗?

    2024-02-01 14:26:01       16 阅读
  2. 阿里云服务器执行yum,一直下载docker-ce-stable失败

    2024-02-01 14:26:01       16 阅读
  3. 【Python教程】压缩PDF文件大小

    2024-02-01 14:26:01       15 阅读
  4. 通过文章id递归查询所有评论(xml)

    2024-02-01 14:26:01       18 阅读

热门阅读

  1. 网络安全笔记

    2024-02-01 14:26:01       30 阅读
  2. 软件工程知识梳理2-需求分析

    2024-02-01 14:26:01       33 阅读
  3. 开发安全之:Header Manipulation

    2024-02-01 14:26:01       26 阅读
  4. sqlalchemy——@listens_for

    2024-02-01 14:26:01       31 阅读
  5. 《Docker极简教程》--前言--Docker的简介

    2024-02-01 14:26:01       29 阅读
  6. SpringMVC校验注解不生效

    2024-02-01 14:26:01       32 阅读
  7. C++的学习记录

    2024-02-01 14:26:01       36 阅读
  8. 【Midjourney】新手指南:参数设置

    2024-02-01 14:26:01       29 阅读
  9. 【数据结构】单调队列

    2024-02-01 14:26:01       36 阅读
  10. C语言结构体

    2024-02-01 14:26:01       33 阅读