百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 编程网 > 正文

Spark 开窗源码讲解(二) rownumber

yuyutoo 2024-10-12 01:20 2 浏览 0 评论

我们平常使用开窗函数会使用row_number这个函数,目的是根据某个字段分区,然后根据某个字段排序,然后底层的逻辑是怎么样的。

还是看WindowExec 作为入口,然后看windowFrameExpressionFactoryPairs 追溯到它的父类WindowExecBase,看到内部的定义,然后用户可以在代码编辑中使用row_number函数,然后打断点。

可以定位到对应的frame


走的是UnboundedPrecedingWindowFunctionFrame,然后关键核心处就是这个排序。

frameType:rowframe
createBoundOrdering(frameType, upper, timeZone)

然后看这个实现:


说明对应的逻辑在 RowBoundOrdering(0)

private[window] final case class RowBoundOrdering(offset: Int) extends BoundOrdering {
  override def compare(
      inputRow: InternalRow,
      inputIndex: Int,
      outputRow: InternalRow,
      outputIndex: Int): Int =
    inputIndex - (outputIndex + offset)
}

然后看UnboundedPrecedingWindowFunctionFrame的write,在write中就是进行产生这个行号


,可以看到这里的compare方法,这里的 index 就是 上游WindowExecBase中的传入值。

var rowIndex = 0

override final def hasNext: Boolean =
  (bufferIterator != null && bufferIterator.hasNext) || nextRowAvailable

val join = new JoinedRow
override final def next(): InternalRow = {
  // Load the next partition if we need to.
  if ((bufferIterator == null || !bufferIterator.hasNext) && nextRowAvailable) {
    fetchNextPartition()
  }

  if (bufferIterator.hasNext) {
    val current = bufferIterator.next()

    // Get the results for the window frames.
    var i = 0
    while (i < numFrames) {
      frames(i).write(rowIndex, current)
      i += 1
    }

    // 'Merge' the input row with the window function result
    join(current, windowFunctionResult)
    rowIndex += 1

    // Return the projection.
    result(join)
  } else {
    throw new NoSuchElementException
  }
}

这里的 index = outputIndex ,看它的定义,就是逐行遍历增加。

然后看 inputIndex,这个值就是 这个分区内这个组中的当前行的序号,不是分区开始的序号
index是 分区内的序号
inputIndex就是分区内某个组(partitionBy 后面字段的内容的值)的序号。

现在模拟下场景。

+---+---+
| id| kk|
+---+---+
|  1|  1|
|  1|  9|
|  1|  3|
|  1|  1|
+---+---+
这是明细,然后根据 ID进行partitionBy,根据kk排序
第一步:重分区,根据hashpartition 分,ID=1的都分入了同一个分区中
第二步:根据 ID + kk 进行排序,这样数据的顺序从
+---+---+
| id| kk|
+---+---+
|  1|  1|
|  1|  9|
|  1|  3|
|  1|  1|
+---+---+
变成了
+---+---+
| id| kk|
+---+---+
|  1|  1|
|  1|  1|
|  1|  3|
|  1|  9|
+---+---+
第三步:
开始遍历这个分区内部的数据
然后调用 frames(i).write(rowIndex, current)
-------------
override def write(index: Int, current: InternalRow): Unit = {
    var bufferUpdated = index == 0

    // Add all rows to the aggregates for which the input row value is equal to or less than
    // the output row upper bound.
    while (nextRow != null && ubound.compare(nextRow, inputIndex, current, index) <= 0) {
      if (processor != null) {
        processor.update(nextRow)
      }
      nextRow = WindowFunctionFrame.getNextOrNull(inputIterator)
      inputIndex += 1
      bufferUpdated = true
    }

    // Only recalculate and update when the buffer changes.
    if (processor != null && bufferUpdated) {
      processor.evaluate(target)
    }
  }
 此时进入的current 就是(1,1)。nextRow=(1,1),inputIndex=0,index=0,
   ubound.compare(nextRow, inputIndex, current, index) 变成了 inputIndex - (outputIndex + offset),其中offset=0,等价于 inputIndex - outputIndex,
那么返回的值就是0,0<=0 返回的就是ture.那么processor.update(nextRow),就产生了一个rownumber=1
此时nextRow 从(1,1) 变成了 (1,1)
然后进入一次循环
此时进入的current就是(1,1),nextRow=(1,1),inputIndex=1,index=1,ubound.compare(nextRow, inputIndex, current, index)返回的依旧是0,
那么processor.update(nextRow),就产生了一个rownumber=2。
此时nextRow 从(1,1) 变成了 (1,3)
然后进入一次循环
此时进入的current就是(1,3),nextRow=(1,3),产生一个rownumber=3
此时nextRow 从(1,3) 变成了 (1,9)
然后进入一次循环
此时进入的current就是(1,9),nextRow=(1,9),产生一个rownumber=4
此时nextRow 从(1,9) 变成了 null

相关推荐

网站制作的流程是什么呢?简单大概的流程

关注我!了解更多网站建设的小干货~如今,随着网络时代的全面到来,网站在人们的生活和工作中发挥着极其重要的作用。网站制作的发展使更多的人加入了这个行业。如果你想掌握网站制作的知识,你可以在学校或网上学习...

一款谷歌(Google)打造的广告网页设计制作软件

GoogleWebDesigner是由谷歌(Google)打造的一款广告网页设计制作软件,它能够帮助从事于广告网页设计工作或是有这方面需求的用户更加有效快速的进行完成相关的行业设计工作,软件可以支...

普通网站如何制作一个网站?

对行外人来讲,在预备做一个网站项目时,最想了解的无非就是网站制作的悉数流程。网站制作是要有计划的,事先策划好才能更快更好的完成。网站的几个基本组成元素:域名+空间+程序+模板+维护经验+日常管理.网站...

用纯Python就能写一个漂亮的网页,再见HTML

再见HTML!用纯Python就能写一个漂亮的网页我们在写一个网站或者一个网页界面的时候,需要学习很多东西,对小白来说很困难!比如我要做一个简单的网页交互:天啊,听听头都大呢!其实我就给老板做一个...

HTML表单4(form的action、method属性)——零基础自学网页制作

表单的工作过程表单的信息发送与处理过程可以简单的进行图示,如下图。以注册会员为例,用户在自己的电脑上打开相应的注册表单页面填写信息,完成填写后点击提交按钮,也就是图中1所示过程。这时浏览器会将这些信息...

官网网站设计网页制作模板建站前端自适应响应式网站仿站门户

案例背景航科慧联无人机搜索雷达能够在多种天气下检测到无人机的入侵、并获得目标的距离、方向和高度等具体信息,是无人机反制作战中的关键设备。航科慧联无人机搜索雷达能够在多种天气下检测到无人机的入侵、并获得...

软网推荐:在线制作软件图标

在制作PPT演示、软件、网页或其他程序时,我们往往需要用到一些个性化的图标。现在,即便是不安装任何软件,也可以上网在线制作自己需要的图标。首先访问如下制作网址:http://www.rw-design...

自定义跳转的h5网页如何制作?

文章来源:墨鹊微站...

网页如何制作?这几点要知道

这是一个个性张扬的时代,也是一个动手能力和动脑能力都比较强的时代,因此很多人对于能够自己动手完成的东西,都不太想假手于人。于是网页制作成了各大搜索引擎里面排名比较靠前的关键词之一。想要知道网页如何制作...

手机端网站简单制作教程,怎么快速制作一个移动端的网站

想要创建一个手机端的网站,需要有域名、已经完成网站页面的开发设计,零基础朋友不懂代码技术,直接在线套用乔拓云里面的网站模板来开发是比较简单可行的,进入乔拓云网,复制网站模板编辑网站的内容,注册域名后绑...

几张动图教你轻松了解Dreamweaver做网页

施老师:当今可是互联网时代,人们的生活、社交离不开互联网,那么不管你是网页设计师,还是销售达人,还是个体户,总必不可少的要在网上呈现一些页面给客户看,这个就是让你做网页,而Dreamweaver是做网...

用Deepseek制作网页版的汉诺塔游戏保姆级教程

在deepseek中输入:“帮我做一个网页版的汉诺塔演示游戏,游戏包含2层、3层、4层、5层的汉诺塔游戏演示,制作自动求解演示按钮,点击按钮就可以生成出步数,同时自动演示最优解动画。”...

JS制作网页版计算器

大家晚上好,我是洁哥,抱歉今天有点晚了,但是洁哥不会缺席哦,今天我们来看一个JS实现网页版计算器的例题,先来看一看出来的效果吧(123+123=246)(123-123=0)(123*123=1512...

网页制作流程哪几步

在数字化时代,网页制作成为企业和个人展示形象、传递信息的重要方式。但是,许多人对于网页制作的流程仍感到困扰。为了解决这一问题,我们将深入探讨网页制作的关键步骤,助您更好地理解和应用这一过程。第一步:需...

这4个设计技巧,教你做好个人网页制作

随着互联网发展,个人建站已经不是什么稀奇事,学生、求职者、插画师、摄影师、作家……都可以制作个人网站,用来展示自身形象,或者吸引粉丝。那么如何做好个人网站呢?在不懂设计和技术知识的情况下,个人网页制作...

取消回复欢迎 发表评论: