Flink SQL 知其所以然：TopN、Order By、Limit 操作-编程之道

IT科技: Flink SQL 知其所以然：TopN、Order By、Limit 操作
时间：2010-12-5 17:23:32 作者：数据库来源：IT科技查看：评论：0
内容摘要：DML：Order By、Limit 子句大家好，我是老羊，今天我们来学习 Flink SQL 中的 TopN、Order By、Limit 3个操作。1.Order By 子句支持 Batch\St
DML：Order By、操作Limit 子句
大家好，操作我是操作老羊，今天我们来学习 Flink SQL 中的操作 TopN、Order By、操作Limit 3个操作。操作1.Order By 子句
支持 Batch\Streaming，操作但在实时任务中一般用的操作非常少。
实时任务中，操作Order By 子句中必须要有时间属性字段，操作并且时间属性必须为升序时间属性，操作即 WATERMARK FOR rowtime_column AS rowtime_column - INTERVAL 0.001 SECOND 或者 WATERMARK FOR rowtime_column AS rowtime_column。操作
举例：
复制CREATE TABLE source_table_1 ( user_id BIGINT NOT NULL,操作 row_time AS cast(CURRENT_TIMESTAMP as timestamp(3)), WATERMARK FOR row_time AS
row_time
) WITH ( connector = datagen, rows-per-second = 10, fields.user_id.min = 1, fields.user_id.max = 10);CREATE TABLE sink_table ( user_id BIGINT) WITH ( connector = print);INSERT INTO
sink_table
SELECT
user_id
FROM
source_table_1
Order By row_time, user_id desc1.2.3.4.5.6.7.8.9.10.11.12.13.14.15.16.17.18.19.20.21. 2.Limit 子句
支持 Batch\Streaming，但实时场景一般不使用，操作但是操作此处依然举一个例子：
复制CREATE TABLE source_table_1 ( user_id BIGINT NOT NULL, row_time AS cast(CURRENT_TIMESTAMP as timestamp(3)), WATERMARK FOR row_time AS
row_time
) WITH ( connector = datagen, rows-per-second = 10, fields.user_id.min = 1, fields.user_id.max = 10);CREATE TABLE sink_table ( user_id BIGINT) WITH ( connector = print);INSERT INTO
sink_table
SELECT
user_id
FROM
source_table_1
Limit 31.2.3.4.5.6.7.8.9.10.11.12.13.14.15.16.17.18.19.20.21.
结果如下，只有 3 条输出：
复制+I[5]+I[9]+I[4]1.2.3.
DML：TopN 子句
TopN 定义（支持 Batch\Streaming）：TopN 其实就是对应到离线数仓中的 row_number()，可以使用 row_number() 对某一个分组的数据进行排序应用场景：根据某个排序条件，计算某个分组下的排行榜数据SQL 语法标准：复制SELECT [column_list]FROM ( SELECT [column_list], ROW_NUMBER() OVER ([PARTITION BY col1[, col2...]] ORDER BY col1 [asc|desc][, col2 [asc|desc]...]) AS
rownum
FROM table_name)WHERE rownum <= N [AND conditions]1.2.3.4.5.6.7.
ROW_NUMBER()：标识 TopN 排序子句
PARTITION BY col1[, col2...]：标识分区字段，代表按照这个 col 字段作为分区粒度对数据进行排序取 topN，比如下述案例中的partition by key，就是香港云服务器根据需求中的搜索关键词（key）做为分区
ORDER BY col1 [asc|desc][, col2 [asc|desc]...]：标识 TopN 的排序规则，是按照哪些字段、顺序或逆序进行排序
WHERE rownum <= N：这个子句是一定需要的，只有加上了这个子句，Flink 才能将其识别为一个 TopN 的查询，其中 N 代表 TopN 的条目数
[AND conditions]：其他的限制条件也可以加上
实际案例：取某个搜索关键词下的搜索热度前 10 名的词条数据。
输入数据为搜索词条数据的搜索热度数据，当搜索热度发生变化时，会将变化后的数据写入到数据源的 Kafka 中：
数据源 schema：
复制-- 字段名备注-- key 搜索关键词-- name 搜索热度名称-- search_cnt 热搜消费热度（比如 3000）-- timestamp 消费词条时间戳CREATE TABLE source_table ( name BIGINT NOT NULL, search_cnt BIGINT NOT NULL, key BIGINT NOT NULL, row_time AS cast(CURRENT_TIMESTAMP as timestamp(3)), WATERMARK FOR row_time AS
row_time
) WITH (
...
);-- 数据汇 schema：-- key 搜索关键词-- name 搜索热度名称-- search_cnt 热搜消费热度（比如 3000）-- timestamp 消费词条时间戳CREATE TABLE sink_table ( key BIGINT, name BIGINT, search_cnt BIGINT, `timestamp` TIMESTAMP(3)) WITH (
...
);-- DML 逻辑INSERT INTO
sink_table
SELECT key, name, search_cnt, row_time as
`timestamp`
FROM ( SELECT key, name, search_cnt, row_time, -- 根据热搜关键词 key 作为 partition key，然后按照 search_cnt 倒排取前 100 名 ROW_NUMBER() OVER (PARTITION BY
key
ORDER BY search_cnt desc) AS
rownum
FROM source_table)WHERE rownum <= 1001.2.3.4.5.6.7.8.9.10.11.12.13.14.15.16.17.18.19.20.21.22.23.24.25.26.27.28.29.30.31.32.33.34.35.36.37.38.39.40.41.42.
输出结果：
复制-D[关键词1, 词条1, 4944]+I[关键词1, 词条1, 8670]+I[关键词1, 词条2, 1735]-D[关键词1, 词条3, 6641]+I[关键词1, 词条3, 6928]-D[关键词1, 词条4, 6312]+I[关键词1, 词条4, 7287]1.2.3.4.5.6.7.
可以看到输出数据是有回撤数据的，为什么会出现回撤，我们来看看 SQL 语义。
SQL 语义
上面的 SQL 会翻译成以下三个算子：
数据源：数据源即最新的亿华云计算词条下面的搜索词的搜索热度数据，消费到 Kafka 中数据后，按照 partition key 将数据进行 hash 分发到下游排序算子，相同的 key 数据将会发送到一个并发中
排序算子：为每个 Key 维护了一个 TopN 的榜单数据，接受到上游的一条数据后，如果 TopN 榜单还没有到达 N 条，则将这条数据加入 TopN 榜单后，直接下发数据，如果到达 N 条之后，经过 TopN 计算，发现这条数据比原有的数据排序靠前，那么新的 TopN 排名就会有变化，就变化了的这部分数据之前下发的排名数据撤回（即回撤数据），然后下发新的排名数据
数据汇：接收到上游的数据之后，然后输出到外部存储引擎中
上面三个算子也是会 24 小时一直运行的。
源码下载
电光火石电脑安装教程（为您解析电脑组装步骤，让您成为电脑高手）
宏基E5-532G-C98P的性能与优势（一款高性能、全能的笔记本电脑）

最近更新

2025-11-05 02:13:38
解读电脑显示内存错误代码的意义（探索内存错误代码背后的故障原因与解决方法）
2025-11-05 02:13:38
电脑光盘重装系统教程（简明易懂的步骤指引，轻松退出系统烦恼）
2025-11-05 02:13:38
联想B6000-H（探索联想B6000-H的功能与特点，为你带来全新的使用体验）
2025-11-05 02:13:38
酷乐视Q7投影仪的性特点（探索Q7的智能功能与高品质投影体验）
2025-11-05 02:13:38
解决电脑开机显示英文Windows错误恢复的问题（从错误诊断到系统恢复，帮助您解决电脑开机故障）
2025-11-05 02:13:38
探索苹果iPad5的桌面主屏幕魅力（发现iPad5独特的桌面主屏幕特点和优势）
2025-11-05 02:13:38
华为小天鹅蓝牙音箱的卓越性能与设计（华为小天鹅蓝牙音箱的音质体验和便携性能）
2025-11-05 02:13:38
如何在MacBook上安装Windows操作系统（详细步骤及注意事项，让你顺利在MacBook上安装Windows系统）

热门排行

2025-11-05 02:13:38
让你的电脑更潮！教你装配ARGB风扇（打造炫酷的电脑外观，为你的电脑升级护航）
2025-11-05 02:13:38
如何制作U盘启动盘（简单操作教程，快速创建可靠的U盘启动系统）
2025-11-05 02:13:38
使用Ghost镜像快速安装操作系统（简化步骤，轻松完成安装）
2025-11-05 02:13:38
MX4Pro相机性能优越，让你拍照更出色（探索MX4Pro相机的高级功能，让你成为专业摄影师）
2025-11-05 02:13:38
如何利用电脑表格进行打印？（一步步教你掌握新手电脑表格打印技巧）
2025-11-05 02:13:38
探索宾得全幅单反K-1的强大性能和多功能性（以高画质和全新体验为核心，发现K-1的无限可能性）
2025-11-05 02:13:38
VivoX5L音质如何？（探索VivoX5L音质的真实表现）
2025-11-05 02:13:38
优酷斐讯路由器的性能和功能（一款可靠的家用网络设备选择）

Flink SQL 知其所以然：TopN、Order By、Limit 操作

DML：Order By、操作Limit 子句

DML：TopN 子句