初探Flink
创始人
2025-05-31 00:32:45
0

Flink的介绍

Flink项目环境准备

实现WordCount


Flink的介绍

        Flink 起源于一个叫作 Stratosphere 的项目,它是由 3 所地处柏林的大学和欧洲其他一些大 学共同进行的研究项目,由柏林工业大学的教授沃克尔·马尔科(Volker Markl)领衔开发。2014 年 4 月,Stratosphere 的代码被复制并捐赠给了 Apache 软件基金会,Flink 就是在此基础上被 重新设计出来的。

        发展历史

  • 2014 年 8 月,Flink 第一个版本 0.6 正式发布(至于 0.5 之前的版本,那就是在 Stratosphere 名下的了)。与此同时 Fink 的几位核心开发者创办了 Data Artisans 公司, 主要做 Fink 的商业应用,帮助企业部署大规模数据处理解决方案。
  • 2014 年 12 月,Flink 项目完成了孵化,一跃成为 Apache 软件基金会的顶级项目。
  • 2015 年 4 月,Flink 发布了里程碑式的重要版本 0.9.0,很多国内外大公司也正是从这 时开始关注、并参与到 Flink 社区建设的。
  • 2019 年 1 月,长期对 Flink 投入研发的阿里巴巴,以 9000 万欧元的价格收购了 Data Artisans 公司;之后又将自己的内部版本 Blink 开源,继而与 8 月份发布的 Flink 1.9.0 版本进行了合并。自此之后,Flink 被越来越多的人所熟知,成为当前最火的新一代 大数据处理框架。

        由此可见,Flink 从真正起步到火爆,只不过几年时间。在这短短几年内,Flink 从最初的 第一个稳定版本 0.9,到目前本书编写期间已经发布到了 1.13.0,这期间不断有新功能新特性 加入。从一开始,Flink 就拥有一个非常活跃的社区,而且一直在快速成长。 Flink 的具体定位是:Apache Flink 是一个框架和分布式处理引擎。

        用于对无界和有界数据流进行有状态计算。Flink 被设计在所有常见的集群环境中运行,以内存执行 速度和任意规模来执行计算。

Flink项目环境准备

        创建Maven

        设置项目名称 

         项目路径

         添加依赖

    1.13.01.82.12org.apache.flinkflink-scala_${scala.binary.version}${flink.version}org.apache.flinkflink-streaming-scala_${scala.binary.version}${flink.version}org.apache.flinkflink-clients_${scala.binary.version}${flink.version}

        查看引入的依赖 

        在main目录下新建一个Scala目录 

        将Scala目录设置为源代码目录 

        添加Scala支持

 如果没有安装Scala的SDK的话参考链接:初探Scala_open_test01的博客-CSDN博客

实现WordCount

        简单准备一个数据

        批处理实现WordCount

def main(args: Array[String]): Unit = {//创建执行环境val env: ExecutionEnvironment = ExecutionEnvironment.getExecutionEnvironment//读取文件数据val line: DataSet[String] = env.readTextFile("datas\\wc.txt")//对数据集进行转换处理val value: DataSet[(String, Int)] = line.flatMap(_.split(" ")).map(word => (word,1))//分组val gpword: GroupedDataSet[(String, Int)] = value.groupBy(0) //按索引位置分组//聚合统计val rs: AggregateDataSet[(String, Int)] = gpword.sum(1)//索引位置累加聚合//输出rs.print()}

 

        有界流处理实现WordCount

def main(args: Array[String]): Unit = {//创建执行环境val env: StreamExecutionEnvironment = StreamExecutionEnvironment.getExecutionEnvironment//读取文件数据val line: DataStream[String] = env.readTextFile("datas\\wc.txt")//对数据集进行转换处理val fl: DataStream[(String, Int)] = line.flatMap(_.split("")).map(w => (w,1))//分组val gp: KeyedStream[(String, Int), String] = fl.keyBy(_._1)//聚合统计val rs: DataStream[(String, Int)] = gp.sum(1)//输出rs.print()//执行当前任务env.execute()}

        我们可以看到,这与批处理的结果是完全不同的。批处理针对每个单词,只会输出一个最 终的统计个数;而在流处理的打印结果中,“a”这个单词每出现一次,都会有一个频次统计 数据输出。这就是流处理的特点,数据逐个处理,每来一条数据就会处理输出一次。我们通过 打印结果,可以清晰地看到单词“a”数量增长的过程。 

 

        无界流处理实现WordCount

        在实际的生产环境中,真正的数据流其实是无界的,有开始却没有结束,这就要求我们需 要保持一个监听事件的状态,持续地处理捕获的数据。

def main(args: Array[String]): Unit = {//创建执行环境val env: StreamExecutionEnvironment = StreamExecutionEnvironment.getExecutionEnvironment//读取socket文本流数据//socketTextStream("主机名","端口号")val line: DataStream[String] = env.socketTextStream("master",7496)//对数据集进行转换处理val fl: DataStream[(String, Int)] = line.flatMap(_.split("")).map(w => (w,1))//分组val gp: KeyedStream[(String, Int), String] = fl.keyBy(_._1)//聚合统计val rs: DataStream[(String, Int)] = gp.sum(1)//输出rs.print()//执行当前任务env.execute()}

相关内容

热门资讯

知名投资人段永平再发声,坚定看... 来源:茅台时空 据上海证券报报道,知名投资人段永平于7月19日在社交平台发声,再度表达对茅台的坚定信...
申报新三板挂牌17月未过审!利... 导读:重数传媒新三板挂牌申请的审核时长已明显大幅超越了同期申报企业,其第三次A股上市进程再度陷入缓慢...
天阳科技:公司服务于以银行为主... 证券之星消息,天阳科技(300872)07月22日在投资者关系平台上答复投资者关心的问题。 投资者提...
泰凯英IPO:北交所细分行业龙... 来源:挖贝网 据《北京证券交易所上市委员会2025年第15次审议会议公告》显示,北京证券交易所上市委...
太平洋证券研究院副院长刘国清离... 来源:市场资讯 来源:金融人事mini 今年初,原华金证券研究所所长孙远峰加盟太平洋证券担任总经理助...
AWS上海AI研究院解散 官方... DoNews7月23日消息,22日,AWS 亚马逊云科技上海 AI 研究院的首席应用科学家王敏捷发朋...
天弘2只光伏基金跌麻了!三年半... 作者 |郑理 各家公募二季度报告陆续揭开面纱,1.2万亿公募巨头天弘基金管理有限公司(下称“天弘基金...
连亏四年割肉券商,锦龙股份跨界... 手握两张券商牌照的锦龙股份(000712.SZ)正在寻求转型。 7月23日,锦龙股份公告称,公司与广...
悉尼华人区15位业主“合伙卖房... 《澳洲金融评论报》7月23日报道,家住悉尼华人区Carlingford的居民Mario Gabrae...
石破茂证实日美达成协议:美对日... 当地时间23日,日本首相石破茂在直播记者会上称,日本与美国就关税问题达成一致,美方将向日本征收15%...
资金大举净流入这类ETF 受基建、煤炭板块大涨影响,资金强势流入相关ETF,本周前两个交易日,建材ETF(516750)等吸引...
6.52万元/平米!绿城46.... 苏州住宅楼板价纪录再次被绿城中国(03900.HK)刷新。 7月23日,江苏省苏州市两宗住宅地块成功...
原创 3... 在股市,资金多还是少赚钱都难,小凡玩ETF只是不会踏空,那些玩股票的冷暖自知。 牛市第一阶段玩ETF...
GTC泽汇:美元承压与黄金资产... 年初以来,美元持续走弱,维持在多年低点附近,其贬值并非短期波动,而是长期趋势延续的结果。这一局面使得...
原创 从... 当“反内卷”政策遇上了万亿级别的雅下水电大规模投资政策,对周期行业来说,无疑迎来了重要性的发展机遇。...
A股又蹦迪!万亿成交藏玄机?内... 来源:倪卫涛 今天A股又把散户玩明白了:指数创新高,你怕得想割肉;刚卖完就拉升,回头一看大腿拍肿。内...
雅下水电概念横空出世!恒立钻具... 7月21日至23日,A股雅下水电概念连续大涨。 图源:图虫 其中,恒立钻具(836942.BJ)连...
多地市场监管部门约谈外卖平台,... 南都讯 记者李玲7月18日,市场监管总局开展行政约谈,要求饿了么、美团、京东进一步规范促销行为,理性...
原创 被... 雷达财经鸿途出品 文|姚柏臣 编|孟帅 7月18日晚,家居零售巨头美凯龙发布的一则公告引发行业关注:...
上证综指盘中突破3600点!业... 上证综指盘中再创年内新高。交易行情数据显示,7月23日盘中,上证综指突破3600点,最高达3613....