

JasonLee实时计算C
-
sparkstreaming中动态广播变量的使用
在实际的项目中,我们一般都会把配置信息放在配置文件或者存到第三方存储中,然后在程序中去读取,但是有的时候我们想修改这些信息,修改完必须要重启job才能生效,那是不是太麻烦了,那有没…
-
Blink的UI焕然一新,我觉得还行
今天带大家看一下Blink的UI的一些新功能,编译的过程这里就不说了,网上也有很多的教程,我们直接启动一个Blink的standalone的集群,然后进入他的UI页面,我先放几张截…
-
kafka的监控系统,试试Kafka Eagle怎么样
在实际生产中,对于kafka的监控是非常重要的,因为我们需要了解消费情况,topic的管理,broker的管理等,目前kafka常用的监控系统有下面三个 (1),Kafka Web…
-
在idea里面怎么远程提交spark任务到yarn集群
很久没有更新了,因为最近一段时间有点小忙,最近也是有同学问我说自己在idea里面写spark程序测试,每次都要打包然后上传到集群,然后spark-submit提交很麻烦,可不可以在…
-
Phoenix的安装和使用
Phoenix是构建在HBase上的一个SQL层,能让我们用标准的JDBC APIs而不是HBase客户端APIs来创建表,插入数据和对HBase数据进行查询。Phoenix完全使…
-
maven环境下java和scala混合开发如何打依赖包?
在实际的项目开发中,很多时候我们可能会用java和scala混合开发,比如Flink或者Spark的项目,他们两个可以相互调用,也有各自的优缺点,结合起来使用非常的方便,但是在编译…
-
Flink 状态清除的演进之路
对于流计算程序来说,肯定会用到状态(state),假如状态不自动清除,并且随着作业运行的时间越来越久,就会累积越多越多的状态,就会影响任务的性能,为了有效的控制状态的大小,Flin…
-
Linux环境安装Protobuf
1,下载地址: https://github.com/protocolbuffers/protobuf/releases 最好是下载-all的包,因为里面的依赖文件比较全…
-
FlinkSQL使用DDL语句创建kafka源表
在Flink1.9.x版本中,社区版本的 Flink 新增 了一个 SQL DDL 的新特性,但是暂时还不支持流式的一些概念的定义,比如说水位(watermark). 下面主要介绍…
-
Flink 1.10.0 SQL DDL中如何定义watermark和计算列
随着Flink1.10.0版本的发布,在SQL上一个重大的优化是支持了watermark语义的计算,在之前的Flink1.9.x版本中是不支持的,当时只能用SQL DDL进行pro…
-
sparkstreaming中动态广播变量的使用
在实际的项目中,我们一般都会把配置信息放在配置文件或者存到第三方存储中,然后在程序中去读取,但是有的时候我们想修改这些信息,修改完必须要重启job才能生效,那是不是太麻烦了,那有没…
-
Flink 源码:广播流状态源码解析
Broadcast State 是 Operator State 的一种特殊类型。它的引入是为了支持这样的场景: 一个流的记录需要广播到所有下游任务,在这些用例中,它们用于在所有子…
-
Flink动态写入kafka的多个topic
昨天在群里一个同学问了这样一个问题,Flink怎么根据数据里面的某个字段动态把数据写入多个kafka的topic. 其实这个问题非常简单,你肯定会想到说写多个sink就可以了,Fl…
-
Flink到底能不能实现exactly-once语义
关于这个问题其实从一开始很多人是存在质疑的,首先exactly-once语义指的是即使在出现故障的情况下,Flink流应用程序中的所有算子都保证事件只会被”精确一次&#…
-
Flink SQL JSON Format 源码解析
用 Flink SQL 解析 JSON 格式的数据是非常简单的,只需要在 DDL 语句中设置 Format 为 json 即可,像下面这样: 那么你有没有想过它的底层是怎么实现的呢…
-
Flink 通过 State Processor API 实现状态的读取和写入
大家好,我是 JasonLee。 在 1.9 版本之前,Flink 运行时的状态对于用户来说是一个黑盒,我们是无法访问状态数据的,从 Flink-1.9 版本开始,官方提供了 St…
-
IDEA 中使用 Big Data Tools 连接大数据组件
简介 Big Data Tools 插件可用于 Intellij Idea 2019.2 及以后的版本。它提供了使用 Zeppelin,AWS S3,Spark,Google Cl…
-
Flink到底能不能实现exactly-once语义
关于这个问题其实从一开始很多人是存在质疑的,首先exactly-once语义指的是即使在出现故障的情况下,Flink流应用程序中的所有算子都保证事件只会被”精确一次&#…
-
Flink on yarn 远程调试源码
大家好,我是 JasonLee。 前几天有小伙伴问我,我写的 Flink 代码是提交到 yarn 上去运行的,那我怎么能远程调试代码呢?在本地调试代码大家都非常熟悉了,直接在 ID…
-
Flink Print SQL Connector 添加随机取样功能
Flink 提供了 Print SQL Connector 可以让我们非常方便的把数据打印到标准输出.有助于我们测试 SQL 任务,检验数据的正确性. 但是在生产环境中,上游的数据…