Apache Sqoop使用

1. Sqoop介绍

Apache Sqoop 是在 Hadoop 生态体系和 RDBMS 体系之间传送数据的一种工具。
Sqoop 工作机制是将导入或导出命令翻译成 mapreduce 程序来实现。在翻译出的 mapreduce 中主要是对 inputformat 和 outputformat 进行定制。

Hadoop 生态系统包括:HDFS、Hive、Hbase 等
RDBMS 体系包括:MySQL、Oracle、DB2 等
Sqoop 可以理解为:“SQL 到 Hadoop 和 Hadoop 到 SQL”。

在这里插入图片描述
站在 Apache 立场看待数据流转问题,可以分为数据的导入导出:
Import:数据导入。RDBMS----->Hadoop
Export:数据导出。Hadoop---->RDBMS

2. Sqoop导入——import

2.1 全量导入MySQL表数据到HDFS

从 MySQL 数据库服务器中的 userdb.emp 表导入到 HDFS。

bin/sqoop import \
--connect jdbc:mysql://node-1:3306/userdb \
--username root \
--password 123456 \
--delete-target-dir \
--target-dir /sqoopresult \
--table emp \	
--m 1

–target-dir 用来指定导出数据存放至 HDFS 的目录;
–m 用来指定导入时使用几个map任务进行并行;
。。。。。。
。。。。。
。。。。
。。。
。。

更多用法请参考: Sqoop详细使用

相关推荐

  1. conda使用,pip使用

    2023-12-05 16:38:02       58 阅读
  2. VueUse使用

    2023-12-05 16:38:02       68 阅读
  3. Git<span style='color:red;'>使用</span>

    Git使用

    2023-12-05 16:38:02      60 阅读
  4. netty使用

    2023-12-05 16:38:02       55 阅读
  5. gdb<span style='color:red;'>使用</span>

    gdb使用

    2023-12-05 16:38:02      63 阅读

最近更新

  1. docker php8.1+nginx base 镜像 dockerfile 配置

    2023-12-05 16:38:02       94 阅读
  2. Could not load dynamic library ‘cudart64_100.dll‘

    2023-12-05 16:38:02       100 阅读
  3. 在Django里面运行非项目文件

    2023-12-05 16:38:02       82 阅读
  4. Python语言-面向对象

    2023-12-05 16:38:02       91 阅读

热门阅读

  1. Python实现pdf文件转word文件

    2023-12-05 16:38:02       57 阅读
  2. MySQL数据库命令详解(二)

    2023-12-05 16:38:02       58 阅读
  3. 国防科技大博士招生入学考试【50+论文主观题】

    2023-12-05 16:38:02       36 阅读
  4. 我的创作纪念日

    2023-12-05 16:38:02       51 阅读
  5. Linux设备与STM32 USB串口通讯

    2023-12-05 16:38:02       60 阅读
  6. 23年9月-11月工作笔记整理(前端)

    2023-12-05 16:38:02       62 阅读
  7. 微前端前置知识----webComponents

    2023-12-05 16:38:02       53 阅读