百度360必应搜狗淘宝本站头条
当前位置:网站首页 > IT技术 > 正文

HIVE应用-COLLECT函数(包含CONCAT_WS、DISTRIBUTE BY、SORT BY)

wptr33 2024-11-11 16:08 40 浏览


#头条创作挑战赛#?#程序员#?

1.collect_list 和 collect_set 函数计

  • 基本用法:collect_list()和collect_set()函数的作用是将某基本类型字段值聚合到array类型字段,由于collect_list()和collect_set()函数只有1个入参,所以当多个字段聚合时,可以利用concat进行拼接后作为入参,当需要按照某个或者多个字段分组时,需要配合group by使用,生成分组聚合数据;
  • 差异点:主要是collect_set是返回集合,会对重复数据去重,而collect_list返回是数组列表,不会去重;由于collect_list返回是数组结构,所以可以配合distribute by和sort by生成有序列表,而collect_set是无序的计算机;
select c, collect_list(concat(colA, '_', colB)) from tb group by c;
select c, collect_set(concat(colA, '_', colB)) from tb group by c;

2.concat_ws 和 concat 函数

  • concat基本用法:cocat函数是多列字段进行拼接合并,不支持某字段为NULL的情况;
  • concat_ws基本用法:cocat_ws函数是可支持字段为NULL的情况,同时可配合collect_list进行使用,输出拼接后的字符串,如上面代码段;

3.distribute by 和sort by

  • 基本用法:distribute by作用是数据分区,分区规则是基于分区字段的hash值与reduce的数量进行取模,相同余数的数据分到同一个分区;sort by 作用是数据排序,可以结合asc和desc进行数据正排和倒排,与distribute by结合时,可以进行分区下的数据排序;返回结果与row_number() over(partition by c sort by c,val desc) as rk和order by rk相同,但order by是全局下排序,计算比较耗时。
SELECT
	c,
	collect(',', concat(a, '_', 'b')) AS ab
FROM
	(
		SELECT c, a, b, val FROM tb distribute BY c SORT BY c, val DESC
	)
GROUP BY
	c


如有遗漏缺陷,可留言补充纠正!

相关推荐

第 28 章:核心功能 SQL 查询 - PostgreSQL入门

欢迎来到我们史诗级教程的最终章!在上一章,我们成功地构建了博客系统的数据库骨架。现在,这个结构精良的数据库正静静地等待着我们去使用它。...

postgresql的6种索引介绍_postgresql默认用户名和密码

postgresql几种索引PostgreSQL支持多种索引类型,每种索引的设计原理、适用场景和优缺点各有不同。以下是对主要索引类型的详细介绍:...

第 20 章:索引与性能优化 - PostgreSQL入门

到目前为止,我们已经学习了如何设计表、保证数据完整性、以及如何用各种方式查询数据。但当我们的表从几十行增长到几百万、甚至上亿行时,一个之前只需要0.1秒的查询,可能会变成需要几分钟甚至几小时的“灾...

PostgreSQL 主从复制 完整指南_主从复制mysql

PostgreSQL主从复制(StreamingReplication)完整指南PostgreSQL主从复制是一种实时同步数据的机制,可以实现高可用性(HA)、读写分离和负载均衡。其...

PostgreSQL监控神器,千万注意这5大关键指标!

PostgreSQL监控神器,千万注意这5大关键指标!在当今数据驱动的业务环境中,数据库的性能和稳定性直接关系到企业的运营效率与用户体验。PostgreSQL作为一款功能强大的开源关系型数据库,被广泛...

Retool 如何升级主应用 4TB 的 PostgreSQL 数据库

本文最初发布于Retool官方博客。...

PostgreSQL查询计划_postgresql查询计划中的cost组成

深入解析PostgreSQL查询计划:优化性能的关键在数据库管理系统中,查询计划是执行SQL查询时的关键组成部分。PostgreSQL作为一款功能强大的开源关系型数据库,其查询计划的生成与优化对于提升...

第 27 章:数据库与表结构实现 - PostgreSQL入门

在上一章,我们已经绘制好了博客系统的宏伟蓝图。现在,是时候戴上安全帽,化身“建筑工程师”,将图纸上的设计一砖一瓦地搭建成真实的数据库结构了。...

谁帮我看看,为啥我的PostgreSQL查询速度这么慢???

...

PostgreSQL事务处理_postgresql时区问题

PostgreSQL事务处理:原理、应用与优化引言...

第 14 章:集合运算 (UNION, INTERSECT, EXCEPT) - PostgreSQL入门

在之前的章节里,我们所有的操作(JOIN...

PostgreSQL 安装指南及日常使用_postgresql 11安装

PostgreSQL安装与日常使用PostgreSQL是一款功能强大、开源的对象关系型数据库,支持高级SQL标准、扩展功能、事务完整性和高并发。本指南涵盖安装、配置、日常使用、性能优化、常见...

第 23 章:函数与存储过程 (PL/pgSQL) - PostgreSQL入门

到目前为止,我们与数据库的交互方式都是从外部客户端(如psql...

PostgreSQL是不是你的下一个JSON数据库?

根据Betteridge定律(任何头条的设问句可以用一个词来回答:不是),除非你的JSON数据很少修改,并且查询很多。最新版的PostgreSQL添加更多对JSON的支持,我们曾经问过PostgreS...

"揭秘PostgreSQL:你必须掌握的数据类型全解析!"

揭秘PostgreSQL:你必须掌握的数据类型全解析!在数据库管理系统中,PostgreSQL以其强大的功能和稳定性而著称。为了充分发挥其性能,理解并熟练掌握其数据类型是至关重要的。本文将深入探讨Po...