职位描述:数据引擎-数据湖团队,旨在打造业界领先的 EB 级超大规模数据湖,支持字节跳动众多核心业务线,如抖音、今日头条、电商。同时基于内部最佳实践,在火山引擎上打造一款云原生实时湖仓一体的 toB 产品——湖仓一体分析服务LAS(LakeHouse Analytics Service)。1、打造业界领先的基于 HUDI的EB级数据湖,支撑字节跳动众多业务线(如抖音,今日头条,电商);2、负责流批一体的实时数据湖存储系统的设计与研发,以及内核的极致优化;3、与开源社区紧密合作,持续构建开源影响力,有机会成长为 HUDI Committer / PMC。职位要求:1、具备良好的 Java / Scala 编程基础和良好的计算机技术基础;2、具备良好的沟通能力和团队协作能力;3、熟悉开源数据湖存储方案 Hudi,Iceberg,Delta Lake 的原理及源码,有内核开发经验或社区贡献者优先,开源社区 committer / PMC 优先;4、熟悉 KUDU,HBase,Cassandra 等分布式存储系统,或者 Spark、Flink、Presto、Doris、Hive、Impala 等主流大数据系统原理者优先。