百度360必应搜狗淘宝本站头条
当前位置:网站首页 > IT技术 > 正文

利用 Redis 集合计算新增用户和次日留存率

wptr33 2024-12-18 17:32 21 浏览

假设你负责一个 SaaS 平台的用户行为统计分析。平台通过用户的机器码来标识每个用户。为了评估平台的增长和用户活跃度,我们需要计算以下两个指标:

1、新增用户数:在某一时间段(例如一天)内,首次登录应用的用户数量。

2、次日留存率:即当天新增的用户,在第二天是否仍然登录应用,计算公式为:

这些计算需要对大量用户数据进行统计。如果直接通过传统的 SQL 语句查询,效率将变得非常低。为了提高效率,我们可以通过 Redis 的集合(Set)操作来完成这些任务。

步骤分析

1. 将所有出现过的用户机器码存储在 Redis 中

首先,我们需要将历史数据中所有出现过的用户机器码存储到 Redis 的集合中。假设你有多个日期的用户数据,每天的用户机器码是不同的。你可以通过类似如下的 SQL 查询来获取每一天的机器码:

SELECT DISTINCT(user_device) FROM `statistic_20241201`;
SELECT DISTINCT(user_device) FROM `statistic_20241202`;...

将这些机器码存储在 Redis 的集合 user_device 中:

$redis->sadd('user_device', '6ab3d84ace678644f44645');  // 添加机器码

user_device 集合中的元素是所有曾经登录过应用的用户机器码。

2. 计算当天新增的用户机器码

接下来,我们需要获取当天新增的用户机器码。假设今天是 2024 年 12 月 3 日,我们通过 SQL 查询获取 12 月 3 日的机器码:

SELECT DISTINCT(user_device) FROM `statistic_20241203`;

将这些机器码存储在 Redis 的临时集合 tmp_20241203 中:

$redis->sadd('tmp_20241203', '5a6vhbb84ace678fgv44f44645');  // 添加机器码

3. 获取新增用户(当天首次登录的用户)

我们可以通过 Redis 的 sdiffstore 命令来计算 user_device 集合和 tmp_20241203 集合的差集。差集就是当天首次登录的机器码,即 2024 年 12 月 3 日的新增用户。

$redis->sdiffstore('new_20241203', 'user_device', 'tmp_20241203');

此时,new_20241203 集合中的元素就是 12 月 3 日新增的用户机器码。为了防止占用内存过多,给这个集合设置 1 天的过期时间:

$redis->expire('new_20241203', 86400);  // 86400秒 = 1天

4. 计算新增用户数量

使用 Redis 的 SCARD 命令获取 new_20241203 集合中的元素数量,这个数量就是 2024 年 12 月 3 日的新增用户数:

$new_user_count = $redis->scard('new_20241203');

5. 合并当天的机器码到 user_device集合中

为了确保历史数据不断更新,我们需要将当天出现的所有机器码合并进 user_device 集合中。这可以通过 Redis 的 sunionstore 命令实现:

$redis->sunionstore('user_device', 'user_device', 'tmp_20241203');

然后删除临时集合 tmp_20241203,以释放内存:

$redis->del('tmp_20241203');

6. 计算次日留存率

为了计算 12 月 3 日新增用户的次日留存率,我们需要查看 12 月 4 日新增的用户机器码。假设 12 月 4 日的用户机器码通过 SQL 查询获得:

SELECT DISTINCT(user_device) FROM `statistic_20241204`;

将这些机器码存储到临时集合 tmp_20241204 中:

$redis->sadd('tmp_20241204', '5a6vhbb84ace678fgv44f44645');

然后,使用 Redis 的 sinterstore 命令计算 new_20241203tmp_20241204 集合的交集,即 12 月 3 日新增用户中,12 月 4 日仍然活跃的用户机器码:

$redis->sinterstore('next_day_retention', 'new_20241203', 'tmp_20241204');

此时,next_day_retention 集合中包含的是次日留存的用户机器码。

7. 计算次日留存的用户数和留存率

使用 SCARD 命令获取 next_day_retention 集合中的元素数量,这就是 12 月 3 日新增用户中,12 月 4 日仍然活跃的用户数:

$next_day_retention_count = $redis->scard('next_day_retention');

然后,通过除法计算次日留存率:

$next_day_retention_rate = $next_day_retention_count / $new_user_count;

总结

通过 Redis 集合的差集(sdiffstore)、并集(sunionstore)和交集(sinterstore)操作,我们能够高效地计算新增用户数和次日留存率,避免了在大数据量下使用 SQL 查询的性能瓶颈。

利用 Redis 的集合操作,不仅提升了计算效率,还大大减少了对数据库的压力。

优势总结

  1. 高效存储和计算:Redis 集合操作能在内存中快速进行集合的交集、并集和差集计算,适合处理海量数据。
  2. 简单易用:Redis 提供了丰富的集合操作命令,可以轻松完成复杂的统计任务。
  3. 扩展性强:随着用户量和数据量的增长,Redis 能够通过简单的命令和机制处理大规模数据。

通过这种方法,我们可以大幅提升数据处理效率,特别适合于高并发、高频次的实时统计需求。

相关推荐

MYSQL术语介绍:dynamic row format

InnoDB行格式。因为可变长度列值存储在保存行数据的页面之外,所以对于包含大对象的行非常有效。由于通常不会访问大字段来评估查询条件,因此不会经常将它们带入缓冲池,从而减少I/O操作并更好地利用缓...

阿里面试:MySQL Binlog有哪些格式?底层原理?优缺点?

binlog的格式也有三种:STATEMENT、ROW、MIXED,下面我详解binlog三种模式@mikechenStatement模式Statement模式:是基于SQL语句的复制(statem...

Mysql日期格式化显示“年月”(mysql日期格式化)

数据库中存储格式为DATE,如果只显示年月,就需要将日期数据格式化。下面通过两种方式对其格式化显示:...

看完这篇还不懂 MySQL 主从复制,可以回家躺平了

我们在平时工作中,使用最多的数据库就是MySQL...

MySQL binlog format (Statement、Row、Mixed) 二进制日志格式

MySQL的binlog日志作用是用来记录MySQL内部增删改查等对MySQL数据库有更新的内容的记录(对数据库的改动),对数据库的查询select或show等不会被binlog日志记录,主要用于数据...

性能优化-界面卡顿和丢帧(Choreographer 代码检测)

标签:ChoreographerUI卡顿UI丢帧本文将介绍3个知识点:获取系统UI刷新频率检测UI丢帧和卡顿输出UI丢帧和卡顿堆栈信息...

使用Java分析器优化代码性能,解决OOM问题

背景最近我一直在做性能优化,对一个单机应用做性能优化。主要是涉及到解析和导入导出相关的业务。大致说一下这个单机应用干嘛的:制作票样,类似于答题卡。发给某些人填写,然后通过单机python图像识别存到数...

面试必问的HashCode技术内幕(hashmap面试题原理)

3hashCode的内幕tips:面试常问/常用/常出错...

实战Netty!基于私有协议,怎样快速开发网络通信服务

私有协议编写目的本文档用于描述边缘计算单元(以下简称边缘盒)与上位机配置软件(以下简称上位机)之间进行的数据交互通信协议。通信方式...

C#工控上位机系列(2)- 串口通信/监控工具

工控机通常都带有很多串口(10个),而且可以通过Moxa卡扩展串口.但Moxa的串口和电脑自带的串口还是有点区别C#里面没区别,但之前VB6的MSComm控件有时就会有不一样的地方.支持串口通讯...

Java加密与解密之消息摘要算法1(消息摘要(hash函数编码法),又称数字指纹 ( ))

消息摘要算法有3大类,分别是:MD、SHA、MAC,通常用于数据完整性的验证。MD:MessageDigest消息摘要算法。包括:MD2,MD4,MD53种算法。SHA:SecureHashA...

zookeeper的Leader选举源码解析(zookeeper角色选举角色包括)

作者:京东物流梁吉超zookeeper是一个分布式服务框架,主要解决分布式应用中常见的多种数据问题,例如集群管理,状态同步等。为解决这些问题zookeeper需要Leader选举进行保障数据的强一致...

Java 中五种最常见加密算法:原理、应用与代码实现

引言在现代软件开发中,数据安全至关重要。无论是用户密码存储、敏感信息传输,还是系统间的通信,加密技术都扮演着核心角色。Java作为广泛使用的编程语言,通过javax.crypto和java.s...

干货|6招学会调用NFC的各个功能(调出nfc)

现在越来越多的手机支持NFC功能,这种轻松、安全、迅速的通信的无线连接技术,能够让我们的手机替代门禁卡、公交卡、银行卡甚至是车钥匙,那么怎么让APP中能够调用这个功能呢?今天小编就来教给大家!...

一文读懂流媒体协议之RTP 协议(rtp流媒体服务器)

一、简介1.1RTPRTP全名是Real-timeTransportProtocol(实时传输协议)。它是IETF提出的一个标准,对应的RFC文档为RFC3550(RFC1889为其过期版本)。...