百度360必应搜狗淘宝本站头条
当前位置:网站首页 > IT技术 > 正文

数据挖掘干货总结(五)--推荐算法之CB

wptr33 2024-11-11 16:08 51 浏览

本文共计2960字,预计阅读时长十分钟



推荐算法(一)--CB算法

推荐的本质

推荐分为非个性化和个性化非个性化推荐比如各类榜单而本系列主要介绍个性化推荐

在合适的场景合适的时机通过合适的渠道把合适的内容推荐给合适的用户

推荐算法的种类

1. 基于内容Content Based

2. 基于协同Collaboration Filtering

– User Based CF

– Item Based CF

、CB算法详解

1. Content的内容

只引入Item属性的Content Based推荐

优点

a.提升推荐结果的相关性

b结果可解释

c.推荐结果容易被用户感知

缺点

a.无个性化

b.依赖于对item的深入分析

引入ItemUser属性的Content Based推荐

在上一步的item提取特征之后的基础上加上了用户的一些行为数据。需要注意行为数据也需要特征化后才能和之前的item特征放在一起进行分析其中可能会涉及到一些one-hot编码的问题这里不展开需要了解的话见:

怎么理解one-hot?

优点

a.用户模型刻画了用户兴趣需求

b.推荐形式多样具有个性化

c.结果可解释

缺点

a.推荐精度低

b.马太效应

c.用户行为稀疏导致覆盖率低


2. 需求举例(仅基于item的特征):

用户小明听了一首歌每首歌(item)的数据属性包括编号(id)和内容(content),

idcontent

id1王铮亮 时间都去哪了私人订制插曲

......

根据CB,向他推荐10首歌

3. 解决步骤和核心代码:

对歌曲库中的每首歌content进行分词并用tf_idf赋值

+++jieba_score_udf.py+++

# coding=utf-8

import sys

reload(sys)

sys.setdefaultencoding('utf-8')

import jieba.analyse

import jieba

import json

import re

#正则匹配中文

pattern = re.compile(u'[一-龥]')

#切词并用tf_idf赋值

for line in sys.stdin:

cols = line.strip().split('')

id = cols[0]

words_list = jieba.analyse.extract_tags(cols[1],topK=10,withWeight=True)

for (word,score) in words_list:

if len(re.findall(pattern,word)) != 0:

print '%s%s%s' % (id,word,score)

大致得到数据是随便编的) t1

idwordscore

id1时间0.1

id1王铮亮0.5

id1私人0.5

id2时间0.4

id20.4

id20.1

id3私人0.3

.........

② 在hive中调用这个udf,得到倒排表

hive> add 'udfpath/jieba_score_udf.py'

hive> select

hive> word,collect_list(concat_ws(':',id,score)) as id_score_list

hive> from

hive> (select transform(id,desc) using 'python jieba_score_udf.py' as(id,word,score)

hive> from badou.musics sort by score desc

hive> ) t

hive> group by word;

大致得到数据是随便编的) t2

word id_score_list

王铮亮[id1:0.5,...]

时间[id2:0.4, id1:0.1...]

私人[id1:0.5, id3:0.3,...]

......

③ 得到ids推荐列表

hive> select tt1.id,collect_list(concat_ws('_', tt2.id, nscore)) ids

hive> from

hive> (select tt1.id, tt2.id, sum(tt2.score) nscore

hive> from

hive> (select tt1.id, tt2.id, tt2.score new_score

hive> from

hive> (select id, word from t1) tt1

hive> join

hive> (select word, id, score from t1) tt2

hive> on tt1.word = tt2.word

hive> ) tt3

hive> where tt1.id <> tt2.id

hive> group by tt1.id,tt2.id

hive> order by nscore desc) tt4;

大致得到数据是随便编的) t3

id ids

id1[id2:0.5,...]

id2[id1:0.5, id3:0.1...]

id3[id2:0.5, id1:0.3,...]

......

④ 推荐

i) 如果小明听的这首歌idt3表中存在那么直接取出对应的ids即可

ii) 如果小明听的这首歌idt3表中不存在

a. 需要在线对其content做分词得到一个word列表:(word1, word2, word3,...)

b. t1中找出对应的id分数求和排序top10即可

hive> select id, sum(score) nscore

hive> from

hive> (select id, word, score from t1

hive> where word in (word1, word2, word3,...) tt

hive> group by id

hive> order by nscore desc

hive> limit 10;

或者在t2倒排表中选取对应的ids,解析后求和排序结果都一样,但可能会更快一点

hive> select

hive> split(id_score,':')[0] as id,

hive> sum(split(id_score,':')[1] as score) nscore

hive> from

hive> (select word, explode(id_score_list,',') id_score

hive> from t2

hive> where word in (word1, word2, word3,...)

hive> ) ttt

hive> group by id

hive> order by nscore desc

hive> limit 10;




不切实际的期望和恐惧是造成焦虑的根源

我们需要以实际情况和发生概率为依据

避免非黑即白地去看待事物


相关推荐

oracle数据导入导出_oracle数据导入导出工具

关于oracle的数据导入导出,这个功能的使用场景,一般是换服务环境,把原先的oracle数据导入到另外一台oracle数据库,或者导出备份使用。只不过oracle的导入导出命令不好记忆,稍稍有点复杂...

继续学习Python中的while true/break语句

上次讲到if语句的用法,大家在微信公众号问了小编很多问题,那么小编在这几种解决一下,1.else和elif是子模块,不能单独使用2.一个if语句中可以包括很多个elif语句,但结尾只能有一个...

python continue和break的区别_python中break语句和continue语句的区别

python中循环语句经常会使用continue和break,那么这2者的区别是?continue是跳出本次循环,进行下一次循环;break是跳出整个循环;例如:...

简单学Python——关键字6——break和continue

Python退出循环,有break语句和continue语句两种实现方式。break语句和continue语句的区别:break语句作用是终止循环。continue语句作用是跳出本轮循环,继续下一次循...

2-1,0基础学Python之 break退出循环、 continue继续循环 多重循

用for循环或者while循环时,如果要在循环体内直接退出循环,可以使用break语句。比如计算1至100的整数和,我们用while来实现:sum=0x=1whileTrue...

Python 中 break 和 continue 傻傻分不清

大家好啊,我是大田。...

python中的流程控制语句:continue、break 和 return使用方法

Python中,continue、break和return是控制流程的关键语句,用于在循环或函数中提前退出或跳过某些操作。它们的用途和区别如下:1.continue(跳过当前循环的剩余部分,进...

L017:continue和break - 教程文案

continue和break在Python中,continue和break是用于控制循环(如for和while)执行流程的关键字,它们的作用如下:1.continue:跳过当前迭代,...

作为前端开发者,你都经历过怎样的面试?

已经裸辞1个月了,最近开始投简历找工作,遇到各种各样的面试,今天分享一下。其实在职的时候也做过面试官,面试官时,感觉自己问的问题很难区分候选人的能力,最好的办法就是看看候选人的github上的代码仓库...

面试被问 const 是否不可变?这样回答才显功底

作为前端开发者,我在学习ES6特性时,总被const的"善变"搞得一头雾水——为什么用const声明的数组还能push元素?为什么基本类型赋值就会报错?直到翻遍MDN文档、对着内存图反...

2023金九银十必看前端面试题!2w字精品!

导文2023金九银十必看前端面试题!金九银十黄金期来了想要跳槽的小伙伴快来看啊CSS1.请解释CSS的盒模型是什么,并描述其组成部分。...

前端面试总结_前端面试题整理

记得当时大二的时候,看到实验室的学长学姐忙于各种春招,有些收获了大厂offer,有些还在苦苦面试,其实那时候的心里还蛮忐忑的,不知道自己大三的时候会是什么样的一个水平,所以从19年的寒假放完,大二下学...

由浅入深,66条JavaScript面试知识点(七)

作者:JakeZhang转发链接:https://juejin.im/post/5ef8377f6fb9a07e693a6061目录...

2024前端面试真题之—VUE篇_前端面试题vue2020及答案

添加图片注释,不超过140字(可选)...

今年最常见的前端面试题,你会做几道?

在面试或招聘前端开发人员时,期望、现实和需求之间总是存在着巨大差距。面试其实是一个交流想法的地方,挑战人们的思考方式,并客观地分析给定的问题。可以通过面试了解人们如何做出决策,了解一个人对技术和解决问...