EasyExcel百万数据导入导出

https://gitee.com/antirust/idooy-stable/tree/master/idooy-EasyExcel

开发中,导入导出功能对于后台管理这样的系统来说太常用了,除了实现该功能外导入导出的性能也需要开发人员进行充分的考虑。一般情况下,针对导入导出功能的设计会面临如下几个问题:

  1. 如果同步导数据,系统的承载的数据量会不会导致接口超时。
  2. 如果把所有数据一次性装载到内存,很容易引起OOM。
  3. 数据量太大sql语句必定很慢。
  4. 如果走异步,如何通知用户导出结果?
  5. 如果excel文件太大,目标用户打不开怎么办?

个别系统导入导出业务复杂,出现问题的地方就不局限于上面的这几个点,开发中如果是优化的话,那也无法抛开复杂的业务场景而单纯的去讨论导入导出的功能。曾经就亲身经历过业务员导入7W条数据跑好几个小时,同步导出10W条数据接口超时。如果没有业务逻辑从中作梗;单纯的导入和导出10W条数据还是很轻松的。
总之,导出导入功能如果追求效率,就需要往多线程上靠;必要的话,还需要进行异步操作。
本小节基于EasyExcel使用多线程进行高效的导入导出操作

百万数据准备

300W的数据大概97M大小
存储过程

create procedure insert_emp(IN num int)
begin
    declare i int default 0;
    set autocommit = 0;
    repeat
        insert into employee(last_name, age, sex, salary, job_id)
        values (concat('emp', lpad(i, 8, '0')), floor(rand() * 100), if(rand() > 0.5, '男', '女'),
                round(rand() * 10000), floor(rand() * 10));
        set i = i + 1;
    until i = num end repeat;
    commit;
end;

表结构创建语句

create table if not exists employee
(
    employee_id    int auto_increment primary key,
    last_name      varchar(100) null,
    age            int          null,
    sex            varchar(1)   null,
    salary         decimal      null,
    job_id         int          null
);

插入300W数据

call insert_emp(3000000);

EasyExcel导出

导出分两步:

  • select查询数据(多线程分页查询)
  • 数据write写入文件中(因为EasyExcel不支持并发写,即不管是多线程写入单个sheet,还是多线程写入多个sheet都是不允许的)

故EasyExcel高效率导出,就是要合理的使用多线程进行分页数据的查询,(当然还要考虑SQL有没有优化的空间,这里不进行讨论)

EasyExcel不支持并发写

EasyExcel版本3.3.3,并发写的时候程序异常;查看官方文档,文档明确指出‘不支持并发写’
在这里插入图片描述
具体解决办法参看GitHub-issues#3020

导出功能的代码片段

    Long count = baseMapper.selectCount(queryWrapper);
    Long sheetNum = count % pageSize == 0 ? count / pageSize:count / pageSize + 1;
    // 多线程去读
    // 1.初始化map容量 防止扩容带来的效率损耗
    Map<Integer, Page<T>> pageMap = new ConcurrentHashMap<>(Math.toIntExact(3));
    CountDownLatch countDownLatch = new CountDownLatch(Math.toIntExact(3));
    // 注意 easyexcel 暂时不支持多线程并发写入!!! 详情请看github上issues
    for (int i = 0 ;i< sheetNum;i++){
   
        int finali = i;
        threadPoolTaskExecutor.submit(()->{
   
            Page<T> page = new Page<>();
            page.setCurrent(finali + 1);
            page.setSize(pageSize);
            // 获取数据存放到map中
            Page<T> selectPage = baseMapper.selectPage(page,queryWrapper);
            pageMap.put(finali,selectPage);
            // 消耗掉一个
            countDownLatch.countDown();
        });
    }
    try {
   
        countDownLatch.await();
    } catch (InterruptedException e) {
   
        e.printStackTrace();
    }
    // 写入
    try (ExcelWriter excelWriter = EasyExcel.write(out, pojoClass).build()) {
   
        pageMap.forEach((k,v)->{
   
            log.info("正在写入{}条数据",pageSize);
            WriteSheet writeSheet = EasyExcel.writerSheet(k, "第"+(k+1)+"批数据").build();
            excelWriter.write(v.getRecords(), writeSheet);
            pageMap.remove(k);
        });

        excelWriter.finish();
    }

EasyExcel导入

EasyExcel导入思路如下:

  • 解析一行插入一行(速度太慢,不可取)
  • 逐行解析到达指定行数(EasyExcel提供PageReadListener类);数据库批量插入
EasyExcel.read(resource.getInputStream(), Employee.class, new PageReadListener<Employee>((empList) -> {
   
    // 方式三:多线程批量插入,每次批量插入10W数据,100W数据一共用时12s
	threadPool.execute(() -> 		
	employeeMapper.insertBatchSomeColumn(empList));
    log.info("成功插入一次{}量的数据", batchSize);
}, batchSize)).sheet().doRead();
  • 如果是多个sheet页
    • 每个线程处理一个sheet;
      • 解析指定的行数以后单线程批量插入。
      • 解析指定的行数以后多线程批量插入。

相关推荐

  1. easyExcel导出数据

    2024-01-10 00:02:02       25 阅读
  2. Excel数据如何导入导出

    2024-01-10 00:02:02       40 阅读
  3. EasyExcel导入导出数据类型转换

    2024-01-10 00:02:02       23 阅读
  4. EasyExcel导入导出

    2024-01-10 00:02:02       53 阅读
  5. EasyExcel实现导入导出

    2024-01-10 00:02:02       25 阅读
  6. Easyexcel数据导入

    2024-01-10 00:02:02       51 阅读

最近更新

  1. docker php8.1+nginx base 镜像 dockerfile 配置

    2024-01-10 00:02:02       94 阅读
  2. Could not load dynamic library ‘cudart64_100.dll‘

    2024-01-10 00:02:02       100 阅读
  3. 在Django里面运行非项目文件

    2024-01-10 00:02:02       82 阅读
  4. Python语言-面向对象

    2024-01-10 00:02:02       91 阅读

热门阅读

  1. Vue的Computed、Methods和Watch

    2024-01-10 00:02:02       72 阅读
  2. 快速排序和冒泡排序

    2024-01-10 00:02:02       59 阅读
  3. linux下数据库定时备份

    2024-01-10 00:02:02       60 阅读
  4. MySQL数据类型

    2024-01-10 00:02:02       68 阅读
  5. 泛型编程-常用模板

    2024-01-10 00:02:02       44 阅读
  6. 怎么形象化理解线程

    2024-01-10 00:02:02       54 阅读
  7. alist重置密码

    2024-01-10 00:02:02       75 阅读
  8. PCL 点云八叉树体素搜索

    2024-01-10 00:02:02       57 阅读
  9. 服务器常见问题以及处理方案

    2024-01-10 00:02:02       56 阅读