mysql 数据查重与查重分页

起因是公司的crm录入不规范,有重复数据。

之后考虑到需要手动处理,首先需要自动找出重复的数据

查重要求:

存在多个不允许重复的字段,任一字段重复,则判断为同一个客户。划分到同一重复组中。

查重sql如下

SELECT 
    CONCAT('组', dense_rank() OVER (ORDER BY group_key)) AS group_info,
    id, name, tel
FROM (
    SELECT 
        id, name, tel,
        CONCAT_WS('-', 
            IF(name IS NULL, '', name),  
            IF(tel IS NULL, '', '1')
        ) AS group_key,
        COUNT(*) OVER (PARTITION BY CONCAT_WS('-', 
            IF(name IS NULL, '', name),  
            IF(tel IS NULL, '', '1')
        )) AS group_count
    FROM customer
) AS subquery
WHERE group_count > 1
ORDER BY group_key

通过上述sql可以获得一个查重的sql。

那么接下来的问题是如果重复数据大,我们是需要一个分页的。首先我们需要知道重复了多少组。

用以下sql获取:

SELECT COUNT(*) AS total_count 
F

相关推荐

  1. mysql 数据

    2023-12-30 21:14:05       34 阅读
  2. 【pg】多个字段过滤

    2023-12-30 21:14:05       44 阅读

最近更新

  1. TCP协议是安全的吗?

    2023-12-30 21:14:05       16 阅读
  2. 阿里云服务器执行yum,一直下载docker-ce-stable失败

    2023-12-30 21:14:05       16 阅读
  3. 【Python教程】压缩PDF文件大小

    2023-12-30 21:14:05       15 阅读
  4. 通过文章id递归查询所有评论(xml)

    2023-12-30 21:14:05       18 阅读

热门阅读

  1. leetcode541. 反转字符串II

    2023-12-30 21:14:05       37 阅读
  2. react入门笔记

    2023-12-30 21:14:05       31 阅读
  3. KSO-SAP ABAP 创建webservice服务,并用soapui测试

    2023-12-30 21:14:05       33 阅读
  4. vue 页面刷新、重置、更新页面所有数据

    2023-12-30 21:14:05       52 阅读
  5. 算法训练营Day25

    2023-12-30 21:14:05       41 阅读
  6. OpenCV-Python(22):直方图均衡化

    2023-12-30 21:14:05       39 阅读
  7. Python实现进度条

    2023-12-30 21:14:05       40 阅读
  8. ARM12.26

    ARM12.26

    2023-12-30 21:14:05      33 阅读
  9. 项目中cesium使用方法

    2023-12-30 21:14:05       33 阅读
  10. 四、KMDF开发之traceview跟踪打印信息

    2023-12-30 21:14:05       38 阅读
  11. 【Yii2】数据库查询方法总结

    2023-12-30 21:14:05       40 阅读
  12. python统计学-单个总体样本容量的确定

    2023-12-30 21:14:05       30 阅读