如何利用hive技巧实现简单的“品类隔断”(一)

wptr33 2024-11-11 16:09 70 浏览

这道题是我面试经常会问到别人的问题，而且我个人认为是一道在日常工作中很容易遇到，尤其是在做推荐或计算广告领域。

题目

我们以电商场景为例，给定一张hive表为用户偏好召回数据表，具体示例如下：

tbl_user_prefer_recall

那么，假设现在我们还没有为个性化场景进行模型排序，所以我们需要以一定的简单策略给用户展示上述的商品列表，但是如果我们直接按照用户的偏好的强弱，直接给用户进行商品展示的时候，会频繁展示某一个分类的商品，例如用户10001，他最强的偏好是衣服，那么，我们给用户在开始展示的时候，连续展示了：P10002,P10004,P10008,P10024,P10035等五个商品。

其实，这不仅会造成用户在一定程度的“浏览疲劳”，而且显示出了我们的展示策略越推越窄的短板，无法丰富用户兴趣偏好的商品展示。

那么，我们如何尽可能地给用户展示的商品能覆盖到他所有或者大部分的偏好分类呢，这其实就是一种叫做“品类隔断”的策略，这个策略的意思就是说，我在给用户展示商品的时候，不能频繁对某一种分类曝光，而要尽可能给用户曝光不一样的分类下的商品，尽可能发掘用户潜在的所有购买行为。

此时，产品经理来了，要求我们的工程师快速上线一版“品类隔断”的策略，并且要求展示的结果如下：

用户10001的商品展示顺序为：

P10002（衣服）, P10003（鞋子）, P10007（手机）, P10004（衣服）, P10001（鞋子）, P10005（手机）, P10008（衣服）, P10010（鞋子）, P10006（手机）, P10024（衣服）, P10025（手机）, P10035（衣服）

用户10002的商品展示顺序为：

P10007（手机）, P10008（电脑）, P10005（手机）, P10011（电脑）, P10006（手机）, P10020（电脑）, P10025（手机）

这样，我们就简单实现了产品经理的需求——“品类隔断”。

此时，同学们可能都在想，用MapReduce或者Spark实现上述逻辑很简单啊，是啊，我也知道很简单，但是我们的面试题是：如何用hive实现上述逻辑？我希望大家看到这儿时，先不要往下看，自己思考下该怎么做，然后接着看下一小节。

不知道大家有思路没？我再提示一下，使用row_number，explode等hive函数，再好好想想…

解题思路

开始揭晓谜底，我们以用户10001为例：

用户10001的偏好召回表如下：

而我们给用户线上展示的结果顺序如下：

P10002（衣服）, P10003（鞋子）, P10007（手机）, P10004（衣服）, P10001（鞋子）, P10005（手机）, P10008（衣服）, P10010（鞋子）, P10006（手机）, P10024（衣服）, P10025（手机）, P10035（衣服）

想必大家看出了其中的规律，即我们先将分类偏好从高到低排序，然后按照分类偏好排序结果分别去取每个分类中的第1个商品，第2个商品…直至所有的商品都取完。

那么，我们在hive中如何实现呢，思路是这样的：

1、对用户下的分类偏好和分类下的商品做二次排序，并对其做排序打标

用户id    分类       商品       排序打标
10001     衣服       P10002  		1
10001     衣服       P10004  		2
10001     衣服       P10008  		3
10001     衣服       P10024  		4
10001     衣服       P10035  		5
10001     鞋子       P10003  		1
10001     鞋子       P10001  		2
10001     鞋子       P10010  		3
10001     手机       P10007  		1
10001     手机       P10005  		2
10001     手机       P10006  		3
10001     手机       P10025  		4

2、对所打排序标签进行分组聚合

用户id    排序打标       排序打标中间聚合
10001     1            P10002, P10003, P10007
10001     2            P10004, P10001, P10005
10001     3            P10008, P10010, P10006
10001     4            P10024, P10025
10001     5             P10035

3、再在用户维度做召回数据的整体聚合即可

用户id    最终展示结果顺序
10001     P10002, P10003, P10007, P10004, P10001, P10005, P10008, P10010, P10006, P10024, P10025 P10035

看完上述过程解析，想必大家已经思路非常明确了，以下给出hive sql供大家参考：

select
       userId,
       concat_ws(',', collect_list(rk_pids)) as final_pids
from
(
       select
              userId,
              rk,
              concat_ws(',',collect_list(pid)) as rk_pids
       from
       (
              select
                     userId,
                     cate,
                     prefer,
                     pid,
                     row_number() over(partition by userId order by prefer desc) as rk
              from
                     tbl_user_prefer_recall
              lateral view explode(split(pids, ',')) tbl_tmp as pid
       ) tbl_1
       group by userId, rk
) tbl_2
group by userId;

总结

“品类隔断”在推荐或计算广告领域是非常常见的业务场景需求，本文从面试的角度利用实际业务需求出发，侧面考察了大家hive的熟练程度，这也是对算法工程师的一种基本要求所在，希望大家都能掌握~

话外篇

文章还没写完，产品经理又找过来了，说你上次做的“品类隔断”也太简单了，都区分不出用户偏好的强弱，不管用户这个偏好强不强，你都给他按照同等概率曝光，你玩我呢？！我不管，我要求尽快上线带有偏好强弱区分的“品类隔断”展示，例如用户10001:，我需要给他展示成这种顺序：

P10002（衣服）, P10004（衣服）, P10008（衣服）, P10003（鞋子）, P10001（鞋子）, P10007（手机）, P10024（衣服）, P10035（衣服）, P10010（鞋子）, P10005（手机）...

对于这个排序，我们可以看出用户对每个分类的偏好的强弱决定了对应分类的商品展示的个数，文中的用户10001对衣服的偏好最强，鞋子次之，手机最后，因此我们需要给用户展示的结果顺序是：

衣服，衣服，衣服，鞋子，鞋子，手机，衣服，衣服，衣服，鞋子，鞋子，手机…

从而体现出了用户偏好强弱，而不至于出现上述不同偏好但同等概率展示的情况。

大家可以先思考一下，我们下一篇文章继续讲解这个问题的升级版~

注：纯手工打造，实属不易，欢迎大家分享和转发~

原创内容，转载需注明出处，否则视为侵权并将被追诉！

concat_ws

上一篇：mysql主从不一致的修复数据工具pt-table-sync
下一篇：Web渗透_SQL注入1 web sql注入

如何利用hive技巧实现简单的“品类隔断”(一)

题目

解题思路

总结

话外篇

相关推荐

Python第六讲:tuple_python tuple类型

如何将AI助手接入微信（打开ai手机助手）

SparkSQL——DataFrame的创建与使用

使用过 Redis 分布式锁么，它是什么回事?

Python rembg 库去除图片背景

VUE循环语句的使用(v-for)（vuefor循环的key）

HiveOs系统教程最细手把手教学（hiveos启动）

HIVE SQL基础语法（hive-sql）

Spring Boot 概述（spring boot干嘛的）

《循环(for/while)》（循环while语句）