sql题之使用划分会话的方式解决统计间隔连续登录问题

现有各用户的登录记录表(login_events)如下,表中每行数据表达的信息是一个用户何时登录了平台。

   

user_id login_datetime
100 2021-12-01 19:00:00
100 2021-12-01 19:30:00
100 2021-12-02 21:01:00

现要求统计各用户最长的连续登录天数,间断一天也算作连续,例如:一个用户在1,3,5,6登录,则视为连续6天登录。期望结果如下:

user_id
<int>
(用户id)
max_day_count
<int>
(最大连续天数)
100 3
101 6
102 3
104 3
105 1

话不多说,某位大佬写的SQL我感觉挺牛的,然后我就把它的SQL拿过来。

   对于七天内连续三天登录,断一天也算这种的SQL题,基本上就是需要使用到lead,lag函数,

  以及使用日期减去排名之类的做法。

   一位大佬给出了划分会话的形式来解决七天内连续三天的问题。并且使用拼接concat的方式。

我认为做的确实不错,值得借鉴。

  题解
-- 1.对日期进行格式化,并且进行去重
WITH tmp as( --没啥好说的,做一个数据格式化,同时去重

SELECT

	user_id,

        date_format(login_datetime,"yyyy-MM-dd") login_date

from login_events

group by user_id,date_format(login_datetime,"yyyy-MM-dd") 

)
   --2.取出登录日期的上一个日期

  

 SELECT

                        user_id,

                        login_date,

                        --1.注解从这里看起,取出用户上一次登录的日期

                        lag(login_date,1,'1970-01-01') over(PARTITION by user_id order by login_date) last_login

--3.计算登陆日期和上一次登录日期的差值,根据差值打标记
user_id,

                    login_date,

                    last_login,

                    --2.进行判断,今天登录的日期减去上一次登录的日期,如果大于2的话,就是一个会话的新起点,给这个新起点标记一个1,后面开窗聚合,范围为上无边界到当前行,同一个会话sum的值就会相同

                    IF(datediff(login_date,last_login)>2,1,0) flag
-- 4.按照用户分区日期排序,划分会话

     


                user_id,

  		login_date,	

                --3.这里拼上一个user_id的目的是给每一个会话建立一个唯一标识,方便后面按照会话的唯一标识进行group by

                concat(user_id,"-",sum(flag) over(PARTITION by user_id order by login_date )) flagax_day_count
--5.按照用户,会话分组,求组内最大日期和最小日期的登录差值。

   

user_id,

        --4.这就是每一条子sql都保留login_date这个字段的意义,同一个会话内的最大日期减去最小日期得到的就是连续登录的天数

        datediff(max(login_date),min(login_date)) + 1 max_day_count
group by user_id,flag
5.最终SQL
WITH tmp as( --没啥好说的,做一个数据格式化,同时去重

SELECT

	user_id,

        date_format(login_datetime,"yyyy-MM-dd") login_date

from login_events

group by user_id,date_format(login_datetime,"yyyy-MM-dd") 

)

SELECT

	user_id,

        --4.这就是每一条子sql都保留login_date这个字段的意义,同一个会话内的最大日期减去最小日期得到的就是连续登录的天数

        datediff(max(login_date),min(login_date)) + 1 max_day_count

from(

    SELECT

                user_id,

  		login_date,	

                --3.这里拼上一个user_id的目的是给每一个会话建立一个唯一标识,方便后面按照会话的唯一标识进行group by

                concat(user_id,"-",sum(flag) over(PARTITION by user_id order by login_date )) flag

    from(

            SELECT

                    user_id,

                    login_date,

                    last_login,

                    --2.进行判断,今天登录的日期减去上一次登录的日期,如果大于2的话,就是一个会话的新起点,给这个新起点标记一个1,后面开窗聚合,范围为上无边界到当前行,同一个会话sum的值就会相同

                    IF(datediff(login_date,last_login)>2,1,0) flag

                from(

                    SELECT

                        user_id,

                        login_date,

                        --1.注解从这里看起,取出用户上一次登录的日期

                        lag(login_date,1,'1970-01-01') over(PARTITION by user_id order by login_date) last_login

                    from tmp

        )t1

    )t2

)t3 group by user_id,flag

在这个sql里面,我们既需要使用lag,lead函数获取日期的上一行下一行,也需要对日期差值打标记,同时使用concat划分会话,然后使用sum函数。之后需要求最大值与最小值差值

   

相关推荐

  1. SQL——连续问题

    2024-02-02 03:06:02       19 阅读
  2. 大模型: 流式实现方式

    2024-02-02 03:06:02       56 阅读

最近更新

  1. docker php8.1+nginx base 镜像 dockerfile 配置

    2024-02-02 03:06:02       94 阅读
  2. Could not load dynamic library ‘cudart64_100.dll‘

    2024-02-02 03:06:02       100 阅读
  3. 在Django里面运行非项目文件

    2024-02-02 03:06:02       82 阅读
  4. Python语言-面向对象

    2024-02-02 03:06:02       91 阅读

热门阅读

  1. nginx去掉前端配置的路径前缀

    2024-02-02 03:06:02       52 阅读
  2. 0.1 qt的信号槽机制在pyside6中的应用

    2024-02-02 03:06:02       58 阅读
  3. LeetCode765. Couples Holding Hands——并查集

    2024-02-02 03:06:02       43 阅读
  4. 【技能---ubuntu20.04更换国内镜像源】

    2024-02-02 03:06:02       51 阅读
  5. SSL证书过期后网站是否能够正常访问?

    2024-02-02 03:06:02       61 阅读
  6. React18-列表数据实现用户删除、批量删除

    2024-02-02 03:06:02       54 阅读