字节一面大数据开发工程师面试自我介绍技巧与经验分享,大连加强网站建设
栏目:网络营销 发布时间:2025-02-26
字节一面 1 面试官:简单的做个自我介绍吧 面试官,您好!我叫 xxx 。我于 xxxx 年 x 月从 xxx 学校毕业,学历为 xx 。目前我在 xxx 公司的 xxx 部门就职, ... 字节一面大数据开发工程师面试自我介绍技巧与经验分享
    字节一面

    1 面试官:简单的做个自我介绍吧

    面试官,您好!我叫 xxx 。我于 xxxx 年 x 月从 xxx 学校毕业,学历为 xx 。目前我在 xxx 公司的 xxx 部门就职,职位是大数据开发工程师。我主要从事 xxx 组件以及平台的开发工作。

    工作后,我参与了 xxx 项目。我还参与了 xxx 项目。并且我参与了 xxx 项目。通过这些项目,我积累了丰富的项目经验。而且,这 x 个项目都获得了领导的一致好评。

    我对 Flink 组件怀有浓厚的兴趣。在工作之余,我常常钻研技术,比如 Flink 的四大基石,还有 Flink 内核应用的提交流程以及 Flink 的调度策略等。

    我入职已经 x 年了,并且曾经荣获过优秀员工。这就是我的自我介绍,接下来请面试官提问。

    2 面试官:介绍一下你最拿手的项目

    我重点来介绍流计算平台。这个平台是对标阿里云的实时计算 Flink 的。它是一个一站式且高性能的大数据计算、分析平台。其底层是基于 Flink 来实现的。平台能提供多种核心功能,还支持多种 、sink 插件。并且内置了统一的元数据管理。同时,它支持一键提交、应用管理、断点调试、监控告警、鉴权等多个核心模块。

    我主要负责该平台的 Flink 版本升级工作,将原先的 Flink 1.11.0 升级到 1.14.0。同时,我还对平台进行了架构重构以及代码优化。此外,我参与了核心模块应用管理的工作,也参与了鉴权模块的开发工作。

    解决了多部门提交 Flink 任务时需要大量开关配置的问题,解决了版本升级后 SQL 语法校验的问题,解决了应用提交报错的问题,还解决了鉴权问题。

    3 面试官: 鉴权能介绍一下吗?是对哪方面进行鉴权?

     鉴权是对表级别的读写进行鉴权。

    通过 Flink sql 进行调用并解析后获取相关内容,接着判断该表的类型属于 DDL、DML 还是 DQL 中的哪一种,利用自研的 flink-插件去获取信息,从特定的地方提取关键信息,按照约定组成特定格式来进行鉴权,若鉴权成功,就依照 Flink 原生的执行逻辑继续执行下去,若鉴权失败则报出鉴权异常。

    为什么要使用 Flink sql 进行鉴权呢?为什么不使用 Hive sql 鉴权呢?又为什么不使用 HDFS 本身的鉴权呢?

    该流计算平台底层是以 Flink 来实现的。在鉴权方面,因为编写的 SQL 在提交时要经过 Flink SQL 提交流程,所以在进行鉴权时直接通过 SQL 解析,对拿到的对应的类型进行校验。同时,为了让流计算平台更适配,满足更多业务场景的需求,最终选用了 Flink SQL 鉴权。其实用 Hive SQL 也是能够进行鉴权的。

    面试官询问:对于 Flink sql 之前的解析流程是否清楚呢?能否详细地介绍一下。

    如下图所示:

    Flink sql 调用某一方法,把某种东西转为 Flink 内部的某种形式。在这个过程中主要包含 4 大步骤。

    调用 parse() 方法,把 sql 转化为未经校验的 AST 抽象语法树。在解析过程中,主要运用了词法解析以及语法解析。

    词法解析会把 sql 语句转变为一组 token,语法解析会对 token 进行递归下降的语法分析。

    调用某个方法,把 AST 抽象语法树转化为经过校验的抽象语法树。在校验阶段主要校验两方面的内容:

    校验表名、字段名、函数名是否正确,

    校验特殊类型是否正确,包括判断是否有 join 操作,以及是否存在嵌套等情况。

    调用 rel() 方法,把抽象语法树转变为关系代数树(关系表达式)以及行表达式。在这个过程中,DDL 不会执行 rel 方法,原因是 DDL 实际上是对元数据进行修改,而非涉及复杂查询。

    调用()方法,把  进行转化,转化后的内容包含多种类型,不过最终都会生成根节点 。

    6 面试官:那在  之后又做了哪些操作?

    如下图所示:

    在 Flink 内部进行到某个阶段之后,会调用特定的方法把某事物转为另一事物。在这个过程中,经历了以下四大步骤:

    调用()方法,首先把  转换成  逻辑计划树,接着再将其对应转换成(  逻辑计划树);

    调用()方法把某个东西优化成。在这期间的优化规则包含基于规则的优化 RBO 以及基于代价的优化 CBO。

    (3) 调用raph() 方法将物理计划转为 。

    (4) 调用() 方法将  转为 。

    7 面试官:ROB 里面都了解哪些规则优化?

    RBO 规则优化包含了谓词下推,包含了 Join 优化,包含了列裁剪,还包含了分区裁剪等等。

    8 面试官:分区裁剪主要解决什么问题?

    分区剪裁针对分区表或分区索引而言,优化器能够依据分区键,从 from 和 where 中自动提取出需要访问的分区,这样就避免了对所有分区的扫描,进而降低了 IO 请求。

    分区剪裁分为静态分区剪裁和动态分区剪裁。静态分区剪裁在 sql 语句编译阶段发生,动态分区剪裁在 sql 语句执行阶段发生。若分区键是常量值,优化器会走静态分区剪裁;若分区键是变量形式,优化器只会走动态分区剪裁。

    面试官询问在 flink sql 中,join 包含哪些类型(主要是引擎层的实现方面)。

    在“join”中包含了“join”、“join”、“join”、“join”。

    join 包含有 left join 这种连接方式,也包含 right join 这种连接方式,还包含 inner join 这种连接方式,同时包含 full join 这种连接方式。

    join 所指的是在时间区间内,两条流之间存在一段时间的 join 情况。

    10 面试官:Spark 3.0 优化特性了解不?

    了解 Spark 3.0 AQE 自适应查询优化。

    AQE 自适应查询包含 3 种优化。其中有动态合并分区。还有动态调整 join 策略。另外有动态优化数据倾斜 join 等。

    (1) 动态合并  分区

    在 spark 里,前后的分区存在差异。若分区数过少,那么每个分区处理的数据量可能会很大,进而致使大分区处理时需要将数据落盘,使得查询效率变得很低;倘若分区过多,就会导致每个分区处理的数据较少,这样也会使 IO 请求增多,从而降低查询效率。

    动态合并的含义是,在 map 端的两个分区经过特定操作后,原本会产生五个分区。然而,由于有两个分区的数据过小,所以直接对这两个分区进行合并操作,最终输出 3 个分区。

    (2) 动态调整 join 策略。

    包含 3 种 join 策略,分别是 hash join、hash join。

    (3) 动态优化数据倾斜 join

    面试官询问:假如两张表需要进行 join 操作,但是目前无法满足 hash Join 的要求,那么应该如何处理这种情况,才能够使其达到要求呢?

    在.0 AQE 里会动态调整 join 策略。其中有一种情况是 hash join 的性能最佳,而这种情况的前提是参与 join 的一张表的数据能够被装入内存。正因为如此,当 Spark 估计参与 join 的表的数据量小于广播大小的阈值时,它就会把 Join 策略调整为 hash join。

    所以当两张表进行 join 操作时,如果 A 表的数据量比广播大小的阈值大,那么就不能选择 hash join 。然而,如果恰好能够通过条件把 A 表的无用数据过滤掉,并且 B 表不包含无用数据,这样过滤掉后的 A 表数据量就会小于广播大小的阈值,在这种情况下就可以选择 hash join 。

    12 面试官: 失败有遇到过吗,什么原因导致的?

    遇到过这种情况,失败通常与反压相互关联。导致失败的原因主要有以下两个:

    1. 数据流动缓慢, 执行时间过长。

    我们知道,Flink 机制是以某种方式基于……的。在数据处理期间,它也如同普通数据那般,需在……中排队,等候被处理。倘若……较大或者数据处理较为缓慢,那么它到达算子就需要很长时间,进而触发……。特别是当存在反压情况时,它得在……中流动好几个小时,这就致使……执行时间过长,即便超过了……,依然还未完成,最终导致失败。

    当需要对齐算子时,如果一个输入已经到达,那么该输入后面的数据会被阻塞,不能被处理,必须等到其他输入到达之后才能继续处理。在对齐过程中,其他输入数据的处理都要暂停,这会严重影响应用的实时性,使得执行时间过长,超过了规定时间还没有完成,从而导致执行失败。

    2. 状态数据过大。

    当状态数据过大时,会对每次的时间产生影响。并且在进行某种操作时,IO 压力会很大,导致执行时间过长。如果执行时间过长,就可能出现超时但仍未执行成功的情况,进而导致执行失败。

    13 面试官:怎么解决的上述问题?

    对于数据流动缓慢 解决思路是:

    让  中的数据变少

    让  能跳过  中存储的数据。

    这对应社区提出的 FLIP-183 的 size 。其解决思路为只缓存配置时间内能够处理的数据量,这样能够很好地进行控制。

    关于对齐问题,社区提出了 FLIP-76。其解决思路为:对于实时性要求较高但数据重复性要求低的情况,可采用不对齐模式。在还有其他流尚未到达时,为不影响性能,无需理会,直接处理后续的数据。等到所有流都到达后,就可以对该流进行相关操作。

    对于 状态数据过大问题:

    FLIP-158 提出了一种通用的增量快照方案,其核心思想是以 state 为基础,能够对状态数据的变化进行细粒度的记录。具体情况如下:

    有状态算子会把状态变化写入状态后端,同时还会另外写一份到预写日志里。

    预写日志上传到持久化存储后, 确认  完成。

    state table 独立于其他部分之外,它会周期性地上传。这些上传到持久存储中的数据被称作物化状态。

    上传 state 后,之前的部分预写日志就失去了作用,能够被裁剪掉。

    14 面试官:滑动窗口有啥特点?

    Flink 支持的窗口具备两个重要属性。一个属性是窗口长度 size,另一个属性是滑动间隔。通过窗口长度和滑动间隔这两个属性,能够区分滚动窗口和滑动窗口。

   


# 字节一面大数据开发工程师面试自我介绍技巧与经验分享  # 福田品牌营销推广  # 推广与营销与推销的区别  # 义马网站推广优化  # 安阳靠谱的推广营销费用  # 网站建设小白到精通需要  # 深圳专门网站建设公司  # 钦州公司形象网站建设模板  # 软文营销的推广文案  # 营销佣金推广语  # 资阳网站官网建设费用  # 淘宝网站建设800元  # 阆中工厂网站建设  # 南京网站建设找云世家  # 昆山网站设计建设  # 网站推广策略范文  # 甘肃省网站建设空间  # 远景营销推广方案范文  # 江苏网站建设硬件配置  # 营销推广平台公司电话  # 自己会做网站怎么做推广 


相关文章: 郑州SEO服务,如何让您的网站在竞争激烈的市场中脱颖而出?,北滘seo优化方式  探索未知,小旋风SEO源码背后的秘密武器,seo优化 沈阳  SEO 优化手机版:提升网站流量的必备工具,重庆建设网站资质查询  二代品牌接班人不好好做产品,却热衷当网红的原因!  探索未知,自媒体营销的奥秘与实践,迪斯尼乐园营销推广  揭秘成功的自媒体人,如何打造个人品牌?,喀什网站优化诀窍  南京市交通运输局专业技术资格评审指南:申报材料、费用及注意事项,服装网站建设费用价格  黄埔360 SEO优化,让你的网站在竞争激烈的网络世界中脱颖而出,云南旅行社网站建设  SEO 报价受多种因素影响,选择服务需综合考虑性价比,赣州网络营销推广网站  探索数字营销的奥秘,如何利用自媒体打造品牌影响力,武邑短视频seo  广州番禺网站建设对公司的好处:提升知名度与引流,房地产营销推广毕业论文  中国建设银行武汉数据中心人才招聘公告,多个岗位等你来,天津正规市场营销推广  SEO 经验总结:详解网站降权恢复周期与解决方案,营销推广方式文案英语  探索未知,我的SEO之旅与自媒体营销的心得,绵阳做推广的网站  揭秘陕西SEO优化背后的真相,如何高效提升品牌曝光度?,移动电源网络营销推广  自媒体营销,如何打造一个吸粉无数的秘密武器,企业营销推广费  抛弃经典绿,OPPO“黑化”了?  探索青羊区短视频SEO软件的无限可能,打造你的品牌故事,黄梅全网推广网站  揭秘!日照SEO推广优化培训,如何让您的网站一夜成名?,地铁网站建设工程  专业 SEO 优化方案制定:4 要素解析及内容编辑要点,网站推广与网站运营区别  探索未知,我的SEO之旅与成长之路,网站建设付费培训  20张发人深省的插画,深刻揭露了社会现实  2021 年校园网站建设实施方案范文 - 晋中开发区实验中学,盐城公司网站建设企业  揭秘自媒体营销背后的秘密武器,如何打造爆款内容与精准定位,网站推广页面介绍图文  搞优化工作的技巧与细节:吉林财道网络 SEO 搜索引擎优化指南,关于网站建设技术精粹  上海网站建设公司哪家好?选择合适的公司很重要,贵阳ktv网站建设  建网站前必知:不同类型网站的费用及影响因素,开封网络营销sem推广怎么做  营销专员岗位职责解析:从展商招募到文案创作,全面提升销售能力,喀什网站建设文案模板  新手必知:网站优化过程中容易进入的误区有哪些?,咸宁网站建设目标分析  探索SEO的奥秘,如何找到最适合你的自媒体营销之路,化工产品推广和营销过程  揭秘SEO竞争分析软件,如何助力内容创作者脱颖而出?,天津网站建设文章  眉山抖音SEO工厂,让你的视频在抖音上脱颖而出,网站推广与APP区别  掌握域名和空间知识,轻松操作 SEO,兴趣班网站推广  深入了解百度 SEO 网站优化:原理、内容与实践指南,天津服务网站建设耗材  企业网站建设策划方案:关键版块与重要作用,临海网站推广平台  软件定制开发完成如何验收?,一体化全网营销推广渠道  池州市企业复工工作方案:严格落实责任,确保平稳有序恢复生产经营秩序,adc网站建设  2025 年旅游网站设计与制作报告:洞察行业趋势,把握用户需求,百度推广和网站优化  重庆谷歌SEO,谁做得好?让我们一探究竟,盐城视频营销推广  网站建设公司怎么选?维双云专业能力强、服务质量高,值得信赖,深圳营销推广网站公司  拓展研究视野:政府网站语言景观的特点与建设建议,江西网站建设与推广  网站建设价格与效果的关系,你真的了解吗?,杭州营销推广达人公司  网站模板建站挑选图片小技巧,提升网站辨识度与信息触达效率,昆山网站建设的定位  汕头SEO优化费用解析,如何高效提升品牌曝光度?,临湘响应式网站建设  大众审美提升对网站建设中图片选择的影响及技巧分享,东莞洪梅门诊网站建设  企业网站建设策划书:如何打造高效实用的网站,朔州网站建设推广开发  宜宾市翠屏区四川长江工业园:筑巢引凤,打造智能终端产业新高地,杏坛汽车配件网站建设  丽江古城保护管理:举措、维护费征缴使用及未来发展,华润万家营销推广模式  网站建设中 php 和 J*a 的区别及选择建议,盛大网站建设美丽  乐平网站建设与制作,微信公众号开发,了解乐平的全方位指南,闵行区餐厅营销推广 


相关栏目: 【 网络营销55532 】 【 网络推广33921 】 【 网络优化98863 】 【 网络学院69291 】 【 网络运营7217 】 【 AI推广84713 】 【 百度推广30177