百度360必应搜狗淘宝本站头条
当前位置:网站首页 > IT技术 > 正文

画像笔记5-Elasticsearch 的应用(elasticsearch介绍)

wptr33 2025-04-08 19:44 20 浏览

申明,自我学习用,非原创。

接上节,

如何根据用户的标签,快速找到用户的相关信息。

  • 建议通过二级索引(ES),筛选标签找到用户id,
  • 再基于用户ID在Hbase 中查找用户的详细信息。

在线接口在查询HBase中数据时,由于Hbase无法像关系数据库那样根据多种条件对数据进行筛选(类似SQL语言中的where筛选条件)。一般地Hbase需要建立二级索引来满足根据复杂条件查询数据的需求,本案中选择Elastic search 存储Hbase 索引数据。

在组合标签查询对应的用户人群场景中,首先通过组合标签的条件在Elasticsearch 中查询对应的索引数据,然后通过索引数据去HBase中批量获取rowkey对应的数据。(elastic search 中的documentid 和HBase 中的rowkey都设计为用户id)


基于Elastic search 存储的HBase二级索引方案

为了避免从Hive向Hbase灌入数据时缺失,在向HBase数据同步完成后,还需要校验HBase和Hive中数据量是否一致,如出现较大的波动则发送告警信息。

下面通过Python脚本来看该Hbase状态表数据校验逻辑:

#查询Hvie中数据

def check_Hive_data(data_date):

r = os.popen("Hive -S -e\ "select count(1) from dw.userprofile_usergroup_labels_all where data_date='"+data_date+" '\ "")

Hive_userid_count = r.read()

r.close()

Hive_count = str(int(Hive_userid_count))

print "Hive_result: " + str(Hive_count)

print "Hive select finished"

#查询HBase中数据

def check_Hbase_data(data_date):

r = os.popen("HBase org.apache.hadoop.HBase.mapreduce.RowCounter 'userprofile_labels'\ " 2>&1 |grep ROWS")

HBase_count = r.read().strip()[5:]

r.close()

print "Hbase result: " + str(Hbase_count)

print "Hbase select finished!"

#连接db,将查询结果插入表

db = MySQLdb.connect(host ="xx.xx.xx.xx",port=3306,user="username",passwd="password",db="xxx",charset="utf8")

cursor = db.cursor()

cursor.execute("INSERT INTO service_monitor(date,service_type,Hive_count,Hbase_count) VALUES('"+Datestr_"','advertisement',"+str(Hive_userid_count)+", "+str(Hbase_count)+")")

db.commit()

本案例中将userid 作为rowkey 存入HBase,一方面在组合标签的场景中可以支持条件查询多用户人群,另一方面可以支持单个用户标签的查询,例如查看某id用户身上的标签,

以便运营人员决定是否对其进行运营操作。

Hbase 在离线数仓环境的服务架构如下图所示:


图:Hbase离线数仓服务架构

Elastic search 存储架构:

Elasticsearch 是一个开源的分布式全文检索引擎,可以近乎实时地存储、检索数据。

而且扩展性很好,可以扩展到上百台服务器,处理PB级别的数据。

对于用户标签查询、用户人群计算、用户群多维度透视分析这类对响应时间要求较高的场景,也可以考虑选用Elastic search存储。

Elasticsearch 是面向文档型数据库,一条数据在这里就是一个文档,用json作为文档格式。为了更清晰的理解Elasticsearch查询的一些概念,将其和关系数据库的类型进行对照。

在关系型数据库中查询数据时,可通过选中数据库、表、行、列 来定位所查找的内容,在Elasticsearch中通过索引(index)、类型(type)、文档(document)、字段来定位查找内容。Elastic search的交互可以使用Java API,也可以使用HTTP的RESTful API方式。


图:Elasticsearch 与关系型数据库的对比

应用场景:

基于Hbase的存储方案并没有解决数据的高效检索问题。在实际应用中,经常有根据特定的几个字段进行组合后检索的应用场景,而Hbase采用 rowkey 作为一级索引,不支持多条件查询如果要对库里的非rowkey 进行数据检索和查询,往往需要通过MapReduce 等分布式框架进行计算,时间延迟上会比较高,难以同时满足用户对于复杂条件查询高效率响应这两方面的需求。

主要查询过程包括:

  1. 在Elasticsearch 中存放用于检索条件的数据,并将rowkey也存储进去。
  2. 使用Elasticsearch 的API根据组合标签的条件查询出rowkey的集合。
  3. 使用上一步得到的rowkey去HBase数据库查询对应的结果。

Hbase数据存储数据的索引放在Elasticsearch中,实现了数据和索引的分离。在Elasticsearch 中documentid是文档的唯一标识,在HBase中rowkey是记录的唯一标识,在工程实践中,两者可同时选用用户在平台上得唯一标识(如 userid 或deviceid)作为rowkey 或 documentid,进而解决HBase和Elasticsearch 索引关联的问题。


基于Elasticsearch 存储的Hbase 二级索引方案


标签汇聚数据


通过scala 代码,把Hive 数据从总表中迁移到Elastic search中[略]:

提交命令:

"spark-submit --class com.example.HiveDataToEs --master yarn --deploy-mode client --executor-memory 2g --num-executors 50 --driver-memory 3g --executor-cores 2 spark-hive-to-es.jar 20190101"

#查询命令

GET userprofile/tags/_search

{

"size":0,

"aggs": {

"tagcounts": {

"terms":{

"field": "tags.ACTION_U_01_003"

}

}

}

}

}

methodurl地址描述

PUTlocalhost:9200/索引名称/类型名称/文档id创建文档(指定文档id)

POSTlocalhost:9200/索引名称/类型名称创建文档(随机文档id)

POSTlocalhost:9200/索引名称/类型名称/文档id/_update修改文档

DELETElocalhost:9200/索引名称/类型名称/文档id删除文档

GETlocalhost:9200/索引名称/类型名称/文档id查询文档通过文档id

POSTlocalhost:9200/索引名称/类型名称/_search查询所有数据

elasticsearch(集群)中可以包含多个索引(数据库),每个索引中可以包含多个类型(表),每个类型下又包含多个 个文档(行),每个文档中又包含多个字段(列)。

下面简单介绍下elasticsearch(ES)

1、添加数据

POST /db/user/1

{

"username": "wmyskxz1",

"password": "123456",

"age": "22"

}

POST /db/user/2

{

"username": "wmyskxz2",

"password": "123456",

"age": "22"

}

2、获取数据 GET

GET /carroll/user/1

3、修改数据

PUT /db/user/2

{

"username": "wmyskxz3",

"password": "123456",

"age": "22"

}

4、删除数据 DELETE

DELETE /db/user/1

————————————————

————————————————

版权声明:本文为CSDN博主「carroll18」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。

原文链接:
https://blog.csdn.net/qq_40722827/article/details/106287725

使用restfulapi 查询包含某个标签的用户量,可实时得到返回结果:



返回结果:


图:Elasticsearch 查询某标签的返回结果

从返回结果中可以看到,用户总量(total)为100000000人,包含标签“ACTION_U_01_003”的用户有2500000人(doc_count).

#查询命令:

GET userprofile/_search

{

"query":{

"match_all":{}

}

}

查询结果如图3-27所示。


Elasticsearch 查询某index数据总量

工程化案例

“用户人群”+ “人群分析”的功能解决方案

每天的ETL调度中,需要将Hive计算的标签数据导入ES中,如下图所示。

当标签完成“标签监控预警”后,将标签数据同步到ES中。



工程化调度中导入Elastic search

在与ES同步完成并通过校验后,向MySQL中维护的状态表中插入一条状态记录,

表示当前日期的Elasticsearch 数据可用,线上计算用户人群的接口则读取最近日期对应的数据。如果某天因为调度延迟等方面的原因,没有及时将当日数据导入Elasticsearch中,接口也能读取最近一天对应的数据,是一种可行的灾备方案:


数据同步完成后向MySQL状态表“elasticsearch_state”中插入记录,state字段为“0”,产出异常时为“1”。图3-29中,1月20日导入的数据出现异常,则“state” 状态字段置1,线上接口扫描该状态记录位后不读取1月20日数据,而是会读取最近的1月19日数据。


Elastic search状态记录表


为了避免从Hive向Elastic search中灌入数据时发生数据缺失,在向状态表更新状态位前需要校验ES 和Hive中的数据量

是否一致。下面通过Python 脚本来看数据校验逻辑:

【略】

之后业务人员在画像产品端计算人群或透视分析人群时(如图所示)


画像产品端计算人群


通过Restful API 访问Elasticsearch进行计算(如图所示)。


用户人群计算架构。

相关推荐

redis的八种使用场景

前言:redis是我们工作开发中,经常要打交道的,下面对redis的使用场景做总结介绍也是对redis举报的功能做梳理。缓存Redis最常见的用途是作为缓存,用于加速应用程序的响应速度。...

基于Redis的3种分布式ID生成策略

在分布式系统设计中,全局唯一ID是一个基础而关键的组件。随着业务规模扩大和系统架构向微服务演进,传统的单机自增ID已无法满足需求。高并发、高可用的分布式ID生成方案成为构建可靠分布式系统的必要条件。R...

基于OpenWrt系统路由器的模式切换与网页设计

摘要:目前商用WiFi路由器已应用到多个领域,商家通过给用户提供一个稳定免费WiFi热点达到吸引客户、提升服务的目标。传统路由器自带的Luci界面提供了工厂模式的Web界面,用户可通过该界面配置路...

这篇文章教你看明白 nginx-ingress 控制器

主机nginx一般nginx做主机反向代理(网关)有以下配置...

如何用redis实现注册中心

一句话总结使用Redis实现注册中心:服务注册...

爱可可老师24小时热门分享(2020.5.10)

No1.看自己以前写的代码是种什么体验?No2.DooM-chip!国外网友SylvainLefebvre自制的无CPU、无操作码、无指令计数器...No3.我认为CS学位可以更好,如...

Apportable:拯救程序员,IOS一秒变安卓

摘要:还在为了跨平台使用cocos2d-x吗,拯救objc程序员的奇葩来了,ApportableSDK:FreeAndroidsupportforcocos2d-iPhone。App...

JAVA实现超买超卖方案汇总,那个最适合你,一篇文章彻底讲透

以下是几种Java实现超买超卖问题的核心解决方案及代码示例,针对高并发场景下的库存扣减问题:方案一:Redis原子操作+Lua脚本(推荐)//使用Redis+Lua保证原子性publicbo...

3月26日更新 快速施法自动施法可独立设置

2016年3月26日DOTA2有一个79.6MB的更新主要是针对自动施法和快速施法的调整本来内容不多不少朋友都有自动施法和快速施法的困扰英文更新日志一些视觉BUG修复就不翻译了主要翻译自动施...

Redis 是如何提供服务的

在刚刚接触Redis的时候,最想要知道的是一个’setnameJhon’命令到达Redis服务器的时候,它是如何返回’OK’的?里面命令处理的流程如何,具体细节怎么样?你一定有问过自己...

lua _G、_VERSION使用

到这里我们已经把lua基础库中的函数介绍完了,除了函数外基础库中还有两个常量,一个是_G,另一个是_VERSION。_G是基础库本身,指向自己,这个变量很有意思,可以无限引用自己,最后得到的还是自己,...

China's top diplomat to chair third China-Pacific Island countries foreign ministers' meeting

BEIJING,May21(Xinhua)--ChineseForeignMinisterWangYi,alsoamemberofthePoliticalBureau...

移动工作交流工具Lua推出Insights数据分析产品

Lua是一个适用于各种职业人士的移动交流平台,它在今天推出了一项叫做Insights的全新功能。Insights是一个数据平台,客户可以在上面实时看到员工之间的交流情况,并分析这些情况对公司发展的影响...

Redis 7新武器:用Redis Stack实现向量搜索的极限压测

当传统关系型数据库还在为向量相似度搜索的性能挣扎时,Redis7的RedisStack...

Nginx/OpenResty详解,Nginx Lua编程,重定向与内部子请求

重定向与内部子请求Nginx的rewrite指令不仅可以在Nginx内部的server、location之间进行跳转,还可以进行外部链接的重定向。通过ngx_lua模块的Lua函数除了能实现Nginx...