咨询热线

HASHKFK

新闻资讯
您当前的位置: 首页 > 新闻资讯 > OD SPORTS
OD体育新闻 OD SPORTS

OD体育官方网站- OD体育APP下载- 世界杯指定投注平台Flink基于Paimon的实时湖仓解决方案的演进

时间:2025-08-01 14:13:19
更多
  

  od体育官方网站注册网址,od体育app官网下载,od体育最新登录网址,od体育平台,od体育app,od体育app下载,od体育靠谱吗,od体育,od体育下载,od体育官方网站,od体育官网,od体育投注,od体育下注,od体育买球,od体育世界杯,od体育欧洲杯,od体育赛事,od体育开户,od体育注册,od体育登录,od体育入口

OD体育官方网站- OD体育APP下载- 世界杯指定投注平台Flink基于Paimon的实时湖仓解决方案的演进

  这是一个典型的流式湖仓架构,首先业务数据会存储在 MySQL 表中,然后借助 Flink 及其 CDC Connector 的作业,将这些数据库的数据同步到 Paimon 的 ODS 层中,从而构成 ODS 层数据。这层数据实际上包含了 MySQL 的全量数据,并且会根据 MySQL 的更新实时地进行相应的更新。在有了 ODS 层数据之后通常会进行数据过滤,并进行数据的 Join 操作,以生成一个宽表,这就是 DWD 层的数据。DWD 层数据形成后会进一步进行数据过滤、数据的聚合和打宽表等操作,以生成 DWS 层的数据,用于进行指标的统计。这就是一个简化的流式湖仓分层设计。在这个分层设计中, Apache Flink 与 Paimon 是两个至关重要的组件。

  在实际使用过程中经常会遇到一个问题:当一个作业包含多个Source ,并将数据写入同一个 Paimon 表时,如果多个 Flink 尝试同时对该表进行 Compaction 操作,Paimon 通常不支持这种行为。这会导致作业在执行 Compaction 时失败,进而引发作业持续 Failover ,最终导致作业不可用。为了解决这个问题,用户可以通过配置来关闭作业的自动 Compaction 功能。然而,这样做意味着需要启动另一个专门的作业来对该表执行 Compaction 操作。在很多情况下,用户可能只希望通过一个作业的多个 Flink 来完成必要的 Passbook 操作,而不希望额外启动一个专门的作业来进行 Compaction 。但遗憾的是当前可能无法直接让该作业自行处理 Compaction 。

  首先关于 Paimon 的维表, Paimon 的主键表中包含两种分Bucket 的方式。最简单的一种是 Fixed Bucket 。Fixed Bucket 指的是在作业定义时,而非在 Paimon 表定义时,就已经确定了 Bucket 的数量。对于任意一条数据,其对应的 Bucket 可以通过一个简单公式计算得出。本质上这个计算过程是对 Bucket Key 取哈希值,然后再对 Bucket 的总数取模,从而确定数据具体属于哪个 Bucket 。实际上只需要让事实表也按照同样的方式进行 shuffle 。例如在事实表中可以将 K 1 和 K 2 分配到 Lookup 算子上。这个 Lookup 算子知道,它只需要读取 Bucket 1 的数据,并且只需将 Bucket 1 的数据存储在本地即可。通过这种方式,可以大大降低每个 Lookup 算子的并发量,减少其需要读取的 Paimon 数据量。同时也能降低其实际要存储到本地以及内存中的数据量。

地址:OD体育官方网站(OD SPORTS)竞技游戏展示工作室有限公司   电话:HASHKFK
传真:0896-98589990
ICP备案编号:
Copyright © 2012-2024 OD体育官方网站(OD SPORTS)竞技游戏展示工作室有限公司 版权所有 非商用版本