百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 编程网 > 正文

Hive row_number()优化改写:MAX/MIN STRUCT函数

yuyutoo 2024-10-12 01:21 2 浏览 0 评论

大多数时候,我们需要找到特定列以及其他列的最大值或最小值(取首末次等:取第一行,或者最后一行的场景,通常我们会使用嵌套方法,首先里面这层使用 row_number 开窗计算出序号rn,外层过滤【下文方案2】。这次介绍使用max/min struct来代替他【下文方案3】)。例如,我们有以下员工表。

DESC employee;
+---------------+------------------------------+----------+--+
|   col_name    |          data_type           | comment  |
+---------------+------------------------------+----------+--+
| name          | string                       |          |
| work_place    | array<string>                |          |
| gender_age    | struct<gender:string,age:int>|          |
| skills_score  | map<string,int>              |          |
| depart_title  | map<string,array<string>>    |          |
+---------------+------------------------------+----------+--+
5 rows selected (0.186 seconds)

> SELECT name,gender_age.gender AS gender,gender_age.age AS age FROM employee;
+----------+---------+------+
|   name   |  gender | age  |
+----------+---------+------+
| Michael  | Male    | 30   |
| Will     | Male    | 35   |
| Shelley  | Female  | 27   |
| Lucy     | Female  | 57   |
| Steven   | Male    | 30   |
+----------+---------+------+
5 rows selected (75.887 seconds)

问题

谁是最年长的男性或女性?

有三种可用的解决方案。 注意,gender_age 是一个结构。

解决方案 1

最常用的方法是先在每个性别组中找到年龄的MAX,然后通过匹配性别和MAX年龄进行SELF JOIN,如下所示。这将创建两个阶段的工作并且效率高。

> SELECT employee.gender_age.gender, employee.gender_age.age, name 
> FROM
> employee JOIN 
> (
> SELECT 
> max(gender_age.age) as max_age, gender_age.gender as gender  
> FROM employee
> GROUP BY gender_age.gender
> ) maxage
> ON employee.gender_age.age = maxage.max_age
> AND employee.gender_age.gender = maxage.gender;
+--------------+------+-------+
| gender       | age  | name  |
+--------------+------+-------+
| Female       | 57   | Lucy  |
| Male         | 35   | Will  |
+--------------+------+-------+
2 rows selected (94.043 seconds)

解决方案 2

一旦 Hive 0.11.0 引入了分析功能,我们也可以使用 ROW_NUMBER 来解决问题,但只会触发一个 MapReduce 作业。

> SELECT gender, age, name
> FROM
> (
> SELECT gender_age.gender AS gender,
> ROW_NUMBER() OVER (PARTITION BY gender_age.gender ORDER BY gender_age.age DESC) AS row_num, 
> gender_age.age as age,name
> FROM employee
> ) t WHERE row_num = 1;
+---------+------+-------+
| gender  | age  | name  |
+---------+------+-------+
| Female  | 57   | Lucy  |
| Male    | 35   | Will  |
+---------+------+-------+
2 rows selected (61.655 seconds)

解决方案 3

实际上,自 Hive 0.6.0 以来,通过Hive-1128添加的MAX/MIN STRUCT函数有一种更好的方法,尽管它在 Hive Wiki 中的任何地方都没有记录。

> SELECT gender_age.gender, 
> max(struct(gender_age.age, name)).col1 as age,
> max(struct(gender_age.age, name)).col2 as name
> FROM employee
> GROUP BY gender_age.gender;
+--------------+------+-------+
| gender       | age  | name  |
+--------------+------+-------+
| Female       | 57   | Lucy  |
| Male         | 35   | Will  |
+--------------+------+-------+
2 rows selected (47.659 seconds)

上述作业仅触发一个 MapReduce 作业。我们仍然需要使用Group By子句。但是,我们可以使用MAX/MIN STRUCT函数在MAX/MIN值的同一行中显示所有其他列。默认情况下,如果不是Group By列,则Group By子句不允许SELECT列表中显示列。

概括

解决方案 3 在性能、查询复杂性和旧 Hive 的版本支持方面更好。解决方案 2 更好更强大,因为它不需要 GROUP BY 关键字。此外,上述解决方案均适用于 Spark SQL。

解决方案 3 :max/min struct 其实是把 row_number 中的partition by 信息改为group by,order by改为 struct 里面的参数。max/min struct 是依次比较struct 故也适用 order by 多个参数。

更多进阶干货:

Hive调优:如何实现并发?

HiveSQL高级进阶技巧案例(中)

ClickHouse安装部署与SQL实战

Apache Atlas | 元数据管理框架的独舞

大数据可视化BI工具,呕血总结,通幽洞微

相关推荐

网站制作的流程是什么呢?简单大概的流程

关注我!了解更多网站建设的小干货~如今,随着网络时代的全面到来,网站在人们的生活和工作中发挥着极其重要的作用。网站制作的发展使更多的人加入了这个行业。如果你想掌握网站制作的知识,你可以在学校或网上学习...

一款谷歌(Google)打造的广告网页设计制作软件

GoogleWebDesigner是由谷歌(Google)打造的一款广告网页设计制作软件,它能够帮助从事于广告网页设计工作或是有这方面需求的用户更加有效快速的进行完成相关的行业设计工作,软件可以支...

普通网站如何制作一个网站?

对行外人来讲,在预备做一个网站项目时,最想了解的无非就是网站制作的悉数流程。网站制作是要有计划的,事先策划好才能更快更好的完成。网站的几个基本组成元素:域名+空间+程序+模板+维护经验+日常管理.网站...

用纯Python就能写一个漂亮的网页,再见HTML

再见HTML!用纯Python就能写一个漂亮的网页我们在写一个网站或者一个网页界面的时候,需要学习很多东西,对小白来说很困难!比如我要做一个简单的网页交互:天啊,听听头都大呢!其实我就给老板做一个...

HTML表单4(form的action、method属性)——零基础自学网页制作

表单的工作过程表单的信息发送与处理过程可以简单的进行图示,如下图。以注册会员为例,用户在自己的电脑上打开相应的注册表单页面填写信息,完成填写后点击提交按钮,也就是图中1所示过程。这时浏览器会将这些信息...

官网网站设计网页制作模板建站前端自适应响应式网站仿站门户

案例背景航科慧联无人机搜索雷达能够在多种天气下检测到无人机的入侵、并获得目标的距离、方向和高度等具体信息,是无人机反制作战中的关键设备。航科慧联无人机搜索雷达能够在多种天气下检测到无人机的入侵、并获得...

软网推荐:在线制作软件图标

在制作PPT演示、软件、网页或其他程序时,我们往往需要用到一些个性化的图标。现在,即便是不安装任何软件,也可以上网在线制作自己需要的图标。首先访问如下制作网址:http://www.rw-design...

自定义跳转的h5网页如何制作?

文章来源:墨鹊微站...

网页如何制作?这几点要知道

这是一个个性张扬的时代,也是一个动手能力和动脑能力都比较强的时代,因此很多人对于能够自己动手完成的东西,都不太想假手于人。于是网页制作成了各大搜索引擎里面排名比较靠前的关键词之一。想要知道网页如何制作...

手机端网站简单制作教程,怎么快速制作一个移动端的网站

想要创建一个手机端的网站,需要有域名、已经完成网站页面的开发设计,零基础朋友不懂代码技术,直接在线套用乔拓云里面的网站模板来开发是比较简单可行的,进入乔拓云网,复制网站模板编辑网站的内容,注册域名后绑...

几张动图教你轻松了解Dreamweaver做网页

施老师:当今可是互联网时代,人们的生活、社交离不开互联网,那么不管你是网页设计师,还是销售达人,还是个体户,总必不可少的要在网上呈现一些页面给客户看,这个就是让你做网页,而Dreamweaver是做网...

用Deepseek制作网页版的汉诺塔游戏保姆级教程

在deepseek中输入:“帮我做一个网页版的汉诺塔演示游戏,游戏包含2层、3层、4层、5层的汉诺塔游戏演示,制作自动求解演示按钮,点击按钮就可以生成出步数,同时自动演示最优解动画。”...

JS制作网页版计算器

大家晚上好,我是洁哥,抱歉今天有点晚了,但是洁哥不会缺席哦,今天我们来看一个JS实现网页版计算器的例题,先来看一看出来的效果吧(123+123=246)(123-123=0)(123*123=1512...

网页制作流程哪几步

在数字化时代,网页制作成为企业和个人展示形象、传递信息的重要方式。但是,许多人对于网页制作的流程仍感到困扰。为了解决这一问题,我们将深入探讨网页制作的关键步骤,助您更好地理解和应用这一过程。第一步:需...

这4个设计技巧,教你做好个人网页制作

随着互联网发展,个人建站已经不是什么稀奇事,学生、求职者、插画师、摄影师、作家……都可以制作个人网站,用来展示自身形象,或者吸引粉丝。那么如何做好个人网站呢?在不懂设计和技术知识的情况下,个人网页制作...

取消回复欢迎 发表评论: