Flink中的UDF的实现
admin
2024-03-15 11:21:07
0

Flink 的 Table API 和 SQL 提供了多种自定义函数的接口,以抽象类的形式定义。当前 UDF
主要有以下几类:

  • 标量函数(Scalar Functions):将输入的标量值转换成一个新的标量值;
  • 表函数(Table Functions):将标量值转换成一个或多个新的行数据,也就是扩展成一个表;
  • 聚合函数(Aggregate Functions):将多行数据里的标量值转换成一个新的标量值;
  • 表聚合函数(Table Aggregate Functions):将多行数据里的标量值转换成一个或多个新的行数据;

标量函数(Scalar Functions)

        自定义标量函数可以把 0 个、 1 个或多个标量值转换成一个标量值,它对应的输入是一行数据中的字段,输出则是唯一的值。所以从输入和输出表中行数据的对应关系看,标量函数是“一对一”的转换,类似于hive中的UDF
        想要实现自定义的标量函数,我们需要自定义一个类来继承抽象类 ScalarFunction,并实
现叫作 eval() 的求值方法
。标量函数的行为就取决于求值方法的定义,它必须是公有(public),
而且名字必须是 eval。求值方法 eval 可以重载多次,任何数据类型都可作为求值方法的参数和返回值类型。

使用场景:求传入对象的哈希值

public static class HashFunction extends ScalarFunction {// 接受任意类型输入,返回 INT 型输出public int eval(@DataTypeHint(inputGroup = InputGroup.ANY) Object o) {return o.hashCode();}
}
// 注册函数
tableEnv.createTemporarySystemFunction("HashFunction", HashFunction.class);
// 在 SQL 里调用注册好的函数
tableEnv.sqlQuery("SELECT HashFunction(myField) FROM MyTable");

表函数(Table Functions)

        表函数的输入参数也可以是 0 个、1 个或多个标量值;不同的是,它可以返回任意多行数据。“多行数据”事实上就构成了一个表,所以“表函数”可以认为就是返回一个表的函数,这是一个“一对多”的转换关系,类似于Hive中的UDTF(窗口TVF本质上就是一个表函数)。让输入表中的每一行,与它转换得到的表进行联结(join),然后再拼成一个完整的大表,这就相当于对原来的表进行了扩展。在 Hive 的 SQL 语法中,提供了“侧向视图”(lateral view,也叫横向视图)的功能,可以将表中的一行数据拆分成多行;Flink SQL 也有类似的功能,是用 LATERAL TABLE 语法来实现的。

        实现自定义的表函数,需要自定义类来继承抽象类 TableFunction,内部必须要实现的也是一个名为 eval 的求值方法。与标量函数不同的是,TableFunction 类本身是有一个泛型参数T 的,这就是表函数返回数据的类型;而 eval()方法没有返回类型,内部也没有 return语句,是通过调用 collect()方法来发送想要输出的行数据的。

使用场景:对字段进行拆分,一行变多行。

// 注意这里的类型标注,输出是 Row 类型,Row 中包含两个字段:word 和 length。
@FunctionHint(output = @DataTypeHint("ROW"))
public static class SplitFunction extends TableFunction {public void eval(String str) {for (String s : str.split(" ")) {// 使用 collect()方法发送一行数据collect(Row.of(s, s.length()));}}
}
// 注册函数
tableEnv.createTemporarySystemFunction("SplitFunction", SplitFunction.class);
// 重命名侧向表中的字段
tableEnv.sqlQuery("SELECT myField, newWord, newLength " +"FROM MyTable " +"LEFT JOIN LATERAL TABLE(SplitFunction(myField)) AS T(newWord, newLength) ON TRUE");

聚合函数(Aggregate Functions)

        用户自定义聚合函数(User Defined AGGregate function,UDAGG)会把一行或多行数据
(也就是一个表)聚合成一个标量值。这是一个标准的“多对一”的转换,类似于Hive中的UDAF。聚合函数的概念我们之前已经接触过多次,如 SUM()、MAX()、MIN()、AVG()、COUNT()都是常见的系统内置聚合函数。
        自定义聚合函数需要继承抽象类 AggregateFunction。AggregateFunction 有两个泛型参数
,T 表示聚合输出的结果类型,ACC 则表示聚合的中间状态类型,所以要创建一个累加器。

使用场景:计算加权平均数

// 累加器类型定义
public static class WeightedAvgAccumulator {public long sum = 0; // 加权和public int count = 0; // 数据个数
}
// 自定义聚合函数,输出为长整型的平均值,累加器类型为 WeightedAvgAccumulator
public static class WeightedAvg extends AggregateFunction {@Overridepublic WeightedAvgAccumulator createAccumulator() {return new WeightedAvgAccumulator(); // 创建累加器}@Overridepublic Long getValue(WeightedAvgAccumulator acc) {if (acc.count == 0) {return null; // 防止除数为 0} else {return acc.sum / acc.count; // 计算平均值并返回}}// 累加计算方法,每来一行数据都会调用public void accumulate(WeightedAvgAccumulator acc, Long iValue, Integer 
iWeight) {acc.sum += iValue * iWeight;acc.count += iWeight;}
}// 注册自定义聚合函数
tableEnv.createTemporarySystemFunction("WeightedAvg", WeightedAvg.class);
// 调用函数计算加权平均值
Table result = tableEnv.sqlQuery("SELECT student, WeightedAvg(score, weight) FROM ScoreTable GROUP BY student");

表聚合函数(Table Aggregate Functions)

          用户自定义表聚合函数(UDTAGG)可以把一行或多行数据(也就是一个表)聚合成另 一张表,结果表中可以有多行多列。很明显,这就像表函数和聚合函数的结合体,是一个“多对多”的转换
        自定义表聚合函数需要继承抽象类 TableAggregateFunction。TableAggregateFunction结构和原理与 AggregateFunction 非常类似,同样有两个泛型参数,用一个 ACC 类型的累加器(accumulator)来存储聚合的中间结果。
        表聚合函数得到的是一张表;在流处理中做持续查询,应该每次都会把这个表重新计算输出。如果输入一条数据后,只是对结果表里一行或几行进行了更新(Update),这时我们重新计算整个表、全部输出显然就不够高效了。为了提高处理效率,TableAggregateFunction 还提供了一个 emitUpdateWithRetract()方法,它可以在结果表发生变化时,以“撤回”(retract)老数据、发送新数据的方式增量地进行更新。如果同时定义了 emitValue()和 emitUpdateWithRetract()两个方法,在进行更新操作时会优先调用 emitUpdateWithRetract()。

使用场景:Top N 查询
// 聚合累加器的类型定义,包含最大的第一和第二两个数据
public static class Top2Accumulator {public Integer first;public Integer second;
}
// 自定义表聚合函数,查询一组数中最大的两个,返回值为(数值,排名)的二元组
public static class Top2 extends TableAggregateFunction, 
Top2Accumulator> {@Overridepublic Top2Accumulator createAccumulator() {Top2Accumulator acc = new Top2Accumulator();acc.first = Integer.MIN_VALUE; // 为方便比较,初始值给最小值acc.second = Integer.MIN_VALUE;return acc;}// 每来一个数据调用一次,判断是否更新累加器public void accumulate(Top2Accumulator acc, Integer value) {
if (value > acc.first) {acc.second = acc.first;acc.first = value;} else if (value > acc.second) {acc.second = value;}}// 输出(数值,排名)的二元组,输出两行数据public void emitValue(Top2Accumulator acc, Collector> 
out) {if (acc.first != Integer.MIN_VALUE) {out.collect(Tuple2.of(acc.first, 1));}if (acc.second != Integer.MIN_VALUE) {out.collect(Tuple2.of(acc.second, 2));}}
}// 注册表聚合函数函数
tableEnv.createTemporarySystemFunction("Top2", Top2.class);
// 在 Table API 中调用函数
tableEnv.from("MyTable").groupBy($("myField")).flatAggregate(call("Top2", $("value")).as("value", "rank")).select($("myField"), $("value"), $("rank"));

        目前 SQL 中没有直接使用表聚合函数的方式,所以需要使用 Table API 的方式来调用。这里使用了 flatAggregate()方法,它就是专门用来调用表聚合函数的接口。

相关内容

热门资讯

国联银行间1-3年中高等级信用... 2月28日,国联银行间1-3年中高等级信用债指数(003081)发布公告,基金经理王玥因工作安排于2...
GDP增长5.0%!2025年... 据央视新闻消息,2月28日,国家统计局发布《中华人民共和国2025年国民经济和社会发展统计公报》。
最快3月秘密交表!SpaceX... 据“财联社”2月28日消息,最新市场传闻显示,世界首富马斯克旗下民营航天公司SpaceX正推进IPO...
startrader:中东局势... 2 月 27 日夜间,受中东地缘局势急剧升温影响,全球避险情绪集中爆发,国际黄金、白银、原油三大品种...
折扣叠加财政贴息 银行信用卡账... 本报记者 彭妍 今年1月份,财政部等三部门优化实施个人消费贷款财政贴息政策。在政策支持下,多家银行加...
东莞A股上市公司市值站上800... 界面新闻记者 | 梁宝欣 界面新闻编辑 | 林腾 2月26日,东莞召开新春第一会,主题为“资本赋...
国内实力AI超级员工公司哪家强... 国内实力AI超级员工公司哪家强?这篇给你靠谱答案! 在数字化发展的当下,AI超级员工领域迅速崛起,众...
最强业绩下市值蒸发万亿,全球最... 「核心提示」 当“超预期”成为常态,英伟达的下一个叙事在哪里? 作者 | 张经纬 编辑 | ...
华尔街血色周五!MFS危机涉及... 财联社2月28日讯(编辑 潇湘)周五,华尔街贷款机构因英国一家名不见经传的抵押贷款供应商——MFS的...
干细胞研发机构—打干细胞真的有... 关于“干细胞研发机构—打干细胞真的有用吗”详情 可以添加微信或拨打电话 【微信:nanyu4390】...
消息称马斯克的 SpaceX ... 感谢IT之家网友 的线索投递! 2 月 28 日消息,据彭博社今日报道,知情人士透露,埃隆 · 马...
英伟达公布业绩后股价再度大跌 ... 【CNMO科技消息】当地时间2月27日,全球市值最高的上市公司英伟达在公布业绩后连续第二天走弱,同时...
雷军马年首播 2月27日晚,小米集团董事长雷军开启春节假期后的首场直播,也是马年的首场直播,2026年的第6场直播...
银行“盯上”儿童压岁钱 “一张存单,承载孩子成长的每一个美好瞬间。少儿专属存款3年期年利率1.91%,额度有限先到先得。”刚...
深交所晒出“十四五”成绩单 服... ◎记者 时娜 累计服务实体经济直接融资规模超12万亿元,新增上市公司649家,IPO募集资金6023...
消息称SpaceX将秘密提交I... IT之家 2 月 28 日消息,据彭博社今日报道,知情人士透露,埃隆 · 马斯克的 SpaceX 公...
年味里的消费迁移:2026春节... 2026 年作为 “十五五” 开局之年,其春节消费市场展现出消费从功能满足向 “意义与价值” 驱动转...
手机集体涨价后,汽车会是下一个... 继存储芯片成本的飙升导致手机集体涨价,汽车是否也会因此涨价成为大众关注的新焦点。汽车存储芯片主要分为...
新规后首批!4只互认基金获批,... 财联社2月28日讯(记者 闫军)财联社记者从业内独家获悉,2月27日,互认基金新规后首批4只互认基金...
“十五五”开局看河北|民企信用... (来源:河北新闻网) 转自:河北新闻网 河北数字工商联平台帮助34.8万户企业获得银行授信2523....