百度360必应搜狗淘宝本站头条
当前位置:网站首页 > IT技术 > 正文

利用 Redis 集合计算新增用户和次日留存率

wptr33 2024-12-18 17:32 31 浏览

假设你负责一个 SaaS 平台的用户行为统计分析。平台通过用户的机器码来标识每个用户。为了评估平台的增长和用户活跃度,我们需要计算以下两个指标:

1、新增用户数:在某一时间段(例如一天)内,首次登录应用的用户数量。

2、次日留存率:即当天新增的用户,在第二天是否仍然登录应用,计算公式为:

这些计算需要对大量用户数据进行统计。如果直接通过传统的 SQL 语句查询,效率将变得非常低。为了提高效率,我们可以通过 Redis 的集合(Set)操作来完成这些任务。

步骤分析

1. 将所有出现过的用户机器码存储在 Redis 中

首先,我们需要将历史数据中所有出现过的用户机器码存储到 Redis 的集合中。假设你有多个日期的用户数据,每天的用户机器码是不同的。你可以通过类似如下的 SQL 查询来获取每一天的机器码:

SELECT DISTINCT(user_device) FROM `statistic_20241201`;
SELECT DISTINCT(user_device) FROM `statistic_20241202`;...

将这些机器码存储在 Redis 的集合 user_device 中:

$redis->sadd('user_device', '6ab3d84ace678644f44645');  // 添加机器码

user_device 集合中的元素是所有曾经登录过应用的用户机器码。

2. 计算当天新增的用户机器码

接下来,我们需要获取当天新增的用户机器码。假设今天是 2024 年 12 月 3 日,我们通过 SQL 查询获取 12 月 3 日的机器码:

SELECT DISTINCT(user_device) FROM `statistic_20241203`;

将这些机器码存储在 Redis 的临时集合 tmp_20241203 中:

$redis->sadd('tmp_20241203', '5a6vhbb84ace678fgv44f44645');  // 添加机器码

3. 获取新增用户(当天首次登录的用户)

我们可以通过 Redis 的 sdiffstore 命令来计算 user_device 集合和 tmp_20241203 集合的差集。差集就是当天首次登录的机器码,即 2024 年 12 月 3 日的新增用户。

$redis->sdiffstore('new_20241203', 'user_device', 'tmp_20241203');

此时,new_20241203 集合中的元素就是 12 月 3 日新增的用户机器码。为了防止占用内存过多,给这个集合设置 1 天的过期时间:

$redis->expire('new_20241203', 86400);  // 86400秒 = 1天

4. 计算新增用户数量

使用 Redis 的 SCARD 命令获取 new_20241203 集合中的元素数量,这个数量就是 2024 年 12 月 3 日的新增用户数:

$new_user_count = $redis->scard('new_20241203');

5. 合并当天的机器码到 user_device集合中

为了确保历史数据不断更新,我们需要将当天出现的所有机器码合并进 user_device 集合中。这可以通过 Redis 的 sunionstore 命令实现:

$redis->sunionstore('user_device', 'user_device', 'tmp_20241203');

然后删除临时集合 tmp_20241203,以释放内存:

$redis->del('tmp_20241203');

6. 计算次日留存率

为了计算 12 月 3 日新增用户的次日留存率,我们需要查看 12 月 4 日新增的用户机器码。假设 12 月 4 日的用户机器码通过 SQL 查询获得:

SELECT DISTINCT(user_device) FROM `statistic_20241204`;

将这些机器码存储到临时集合 tmp_20241204 中:

$redis->sadd('tmp_20241204', '5a6vhbb84ace678fgv44f44645');

然后,使用 Redis 的 sinterstore 命令计算 new_20241203tmp_20241204 集合的交集,即 12 月 3 日新增用户中,12 月 4 日仍然活跃的用户机器码:

$redis->sinterstore('next_day_retention', 'new_20241203', 'tmp_20241204');

此时,next_day_retention 集合中包含的是次日留存的用户机器码。

7. 计算次日留存的用户数和留存率

使用 SCARD 命令获取 next_day_retention 集合中的元素数量,这就是 12 月 3 日新增用户中,12 月 4 日仍然活跃的用户数:

$next_day_retention_count = $redis->scard('next_day_retention');

然后,通过除法计算次日留存率:

$next_day_retention_rate = $next_day_retention_count / $new_user_count;

总结

通过 Redis 集合的差集(sdiffstore)、并集(sunionstore)和交集(sinterstore)操作,我们能够高效地计算新增用户数和次日留存率,避免了在大数据量下使用 SQL 查询的性能瓶颈。

利用 Redis 的集合操作,不仅提升了计算效率,还大大减少了对数据库的压力。

优势总结

  1. 高效存储和计算:Redis 集合操作能在内存中快速进行集合的交集、并集和差集计算,适合处理海量数据。
  2. 简单易用:Redis 提供了丰富的集合操作命令,可以轻松完成复杂的统计任务。
  3. 扩展性强:随着用户量和数据量的增长,Redis 能够通过简单的命令和机制处理大规模数据。

通过这种方法,我们可以大幅提升数据处理效率,特别适合于高并发、高频次的实时统计需求。

相关推荐

什么是Java中的继承?如何实现继承?

什么是继承?...

Java 继承与多态:从基础到实战的深度解析

在面向对象编程(OOP)的三大支柱中,继承与多态是构建灵活、可复用代码的核心。无论是日常开发还是框架设计,这两个概念都扮演着至关重要的角色。本文将从基础概念出发,结合实例与图解,带你彻底搞懂Java...

Java基础教程:Java继承概述_java的继承

继承概述假如我们要定义如下类:学生类,老师类和工人类,分析如下。学生类属性:姓名,年龄行为:吃饭,睡觉老师类属性:姓名,年龄,薪水行为:吃饭,睡觉,教书班主任属性:姓名,年龄,薪水行为:吃饭,睡觉,管...

java4个技巧:从继承和覆盖,到最终的类和方法

日复一日,我们编写的大多数Java只使用了该语言全套功能的一小部分。我们实例化的每个流以及我们在实例变量前面加上的每个@Autowired注解都足以完成我们的大部分目标。然而,有些时候,我们必须求助于...

java:举例说明继承的概念_java继承的理解

在现实生活中,继承一般指的是子女继承父辈的财产。在程序中,继承描述的是事物之间的所属关系,通过继承可以使多种事物之间形成一种关系体系。例如猫和狗都属于动物,程序中便可以描述为猫和狗继承自动物,同理,...

从零开始构建一款开源的 Vibe Coding 产品 Week1Day4:业界调研之 Agent 横向对比

前情回顾前面两天我们重点调研了了一下Cursor的原理和Cursor中一个关键的工具edit_file的实现,但是其他CodingAgent也需要稍微摸一下底,看看有没有优秀之处,下...

学会这几个插件,让你的Notepad++使用起来更丝滑

搞程序开发的小伙伴相信对Notepad++都不会陌生,是一个占用空间少、打开启动快的文件编辑器,很多程序员喜欢使用Notepad++进行纯文本编辑或者脚本开发,但是Notepad++的功能绝不止于此,...

将 node_modules 目录放入 Git 仓库的优点

推荐一篇文章Whyyoushouldcheck-inyournodedependencies[1]...

再度加码AI编程,腾讯发布AI CLI并宣布CodeBuddy IDE开启公测

“再熬一年,90%的程序员可能再也用不着写for循环。”凌晨两点半,王工还在公司敲键盘。他手里那份需求文档写了足足六页,产品经理反复改了三次。放在过去,光数据库建表、接口对接、单元测试就得写两三天。现...

git 如何查看stash的内容_git查看ssh key

1.查看Stash列表首先,使用gitstashlist查看所有已保存的stash:...

6万星+ Git命令懒人必备!lazygit 终端UI神器,效率翻倍超顺手!

项目概览lazygit是一个基于终端的Git命令可视化工具,通过简易的TUI(文本用户界面)提升Git操作效率。开发者无需记忆复杂命令,即可完成分支管理、提交、合并等操作。...

《Gemini CLI 实战系列》(一)Gemini CLI 入门:AI 上命令行的第一步

谷歌的Gemini模型最近热度很高,而它的...

deepin IDE新版发布:支持玲珑构建、增强AI智能化

IT之家8月7日消息,深度操作系统官方公众号昨日(8月6日)发布博文,更新推出新版deepin集成开发环境(IDE),重点支持玲珑构建。支持玲珑构建deepinIDE在本次重磅更...

狂揽82.7k的star,这款开源可视化神器,轻松创建流程图和图表

再不用Mermaid,你的技术文档可能已经在悄悄“腐烂”——图表版本对不上、同事改完没同步、评审会上被一句“这图哪来的”问得哑口无言。这不是危言耸听。GitHub2025年开发者报告显示,63%的新仓...

《Gemini CLI 实战系列》(五)打造专属命令行工具箱

在前几篇文章中,我们介绍了GeminiCLI的基础用法、效率提升、文件处理和与外部工具结合。今天我们进入第五篇...