实时数据研发|Flink关键概念

1 阅读 0 评论 0 点赞

Flink 把流计算框架可能处理的数据集分为如下两种。

无界数据集(unbounded dataset):无界数据集通常是持续不断产生的，就像河水一样不停流人。现实世界中的许多数据都是无界的数据集，比如电子商务交易日志、网站点击日志等。
有界数据集(bounded dataset):有界的数据集通常是批次的，考虑Hadoop、MapReduce 处理的文件。

对应上述两种数据集，就有两种数据处理模型。

Flink底层用流处理模型来同时处理上述两种数据。在Flink看来，有界数据集不过是无界数据集的一种特例；而Spark Streaming走了完全相反的技术路线，它把无界数据集分割成有界数据集再通过微批对待流计算。

同spak sueaming、storm 等流计算引擎一样，Flink的数据处理组件也被分为三类：
数据输人(souree)、数据处理(transformation)和数据输出(sink)。

Flink 程序实际执行时，会映射到流数据流(streaming dataflow)。streaming dataflow由流和转换算符构成，每个数据流起始于一个或多个source，并终止于一个或多个 sink，整个数据流类似于任意的有向无环图(DAG)。并且是并行的。

数据流在两个transformation间传输数据有两种方式：

Flink中时间：

本站资源均来自互联网，仅供研究学习，禁止违法使用和商用，产生法律纠纷本站概不负责！如果侵犯了您的权益请与我们联系！

点赞(0) 打赏

暂无评论