stream vs batch

stream实时,连续,低延迟。batch割裂数据,处理滞后。数据完整性,延迟,费用。event time processing time have skew time watermark older than it drop out of order data. watermark太小,aggregate等待时间太长,watermark太大,结果不准确。fixed window sliding window sessoins window

dataflow vs dataproc

  • 存在Hadoop环境依赖,使用dataproc
  • 有devops dataproc serverless dataflow 流处理 dataflow 批处理 都可以 迭代处理和笔记本 dataproc 使用 Spark ML 进行机器学习 dataproc 为机器学习进行预处理 dataflow

优点

  • autoscaling
  • 更低的运营开销
  • 以统一的方式开发批处理流水线和流处理流水线
  • 使用 Apache Beam
  • 支持跨 Cloud Dataflow、Apache Spark 和 Apache Flink 移植运行中的流水线

side input value from other branch