2023_Spark_实验二十六:编写Shell模拟生成点击实时数据

引言:流式数据处理主要处理实时数据,由于实验教学过程中,每个同学无法拿到实时数据,因此我们开发shell脚本模拟实时数据生成,支持后续实验。

实验目的:通过开发模拟实时点击流shell脚本,模拟实时点击流数据生成,支持后续实验

实验方法:通过shell开发脚本运行,实时打印输出数据到控制台,模拟实时数据产生。

实验步骤:

1、选择集群中的一台虚拟机,最好和flume/kafka等在同一台,在该虚拟机的合适位置创建目录,取名:real-timeData

[lh@master scripts]$ mkdir real-timeData
[lh@master scripts]$ cd real-timeData/
[lh@master real-timeData]$ pwd
/home/lh/scripts/real-timeData

2、在该目录realdata下,创建shell脚本文件,取名:real-time-producer.sh

[lh@master real-timeData]$ touch real-time-producer.sh

3、编写real-time-producer.sh脚本

#! /bin/bash

# ---
# author: lh
# create time: 2023-12-6
# version : 1
# ---



function rand(){
        min=$1
        max=$(($2-$min+1))
        num=$(date +%s%N)
        echo $(($num%$max+$min))
}

count=$(rand 10 30)
job_id=$(rand 10001 10010)

echo "`date +%Y%m%d%H%M%S`" 0 $job_id $count


count=$(rand 20 40)
job_id=$(rand 10001 10010)
echo "`date +%Y%m%d%H%M%S`" 1 $job_id $count

代码输出说明:

日期,工作类型,岗位ID,岗位数量

工作类型:1代表新招聘岗位,0代表找工作的人

实验结果:

运行代码得到结果如下:

结论:

通过shell脚本可以开发程序模拟产生随机数据,达到实验要求。

最近更新

  1. TCP协议是安全的吗?

    2023-12-07 06:06:02       18 阅读
  2. 阿里云服务器执行yum,一直下载docker-ce-stable失败

    2023-12-07 06:06:02       19 阅读
  3. 【Python教程】压缩PDF文件大小

    2023-12-07 06:06:02       18 阅读
  4. 通过文章id递归查询所有评论(xml)

    2023-12-07 06:06:02       20 阅读

热门阅读

  1. ssh免密远程登录主机并执行命令

    2023-12-07 06:06:02       36 阅读
  2. 绘制动态心形图的MATLAB代码

    2023-12-07 06:06:02       48 阅读
  3. 【WPF】扫描的方式发现局域网中的Android设备

    2023-12-07 06:06:02       33 阅读
  4. 【第二章】用于基因组数据分析的 R 简介

    2023-12-07 06:06:02       32 阅读
  5. C++ 引用

    2023-12-07 06:06:02       33 阅读
  6. WordPress发布文件随机设置作者昵称信息

    2023-12-07 06:06:02       40 阅读
  7. 图像处理领域的应用

    2023-12-07 06:06:02       39 阅读
  8. 第三章 核心设计与架构:

    2023-12-07 06:06:02       35 阅读