中信银行大数据岗位面试题

中信银行学长2

(1)数据采集框架选型你做了什么,担任什么角色?为什么这么选?

(2)你理解数仓需要什么?哪些是必要的?可以结合你们的数仓讲讲

(3)canal高并发下会不会丢数据?讲讲canal的架构,组件,和你对它的理解?innodb和myisam。使用canal有啥区别?

(4)sparksql怎么解析sql的?比如求一张表,subject,grade,求各个学科的最大值

学长3数仓岗外包

采集数据时,数据经历了两层flume,多次切分传输速度不会慢嘛。kafka的传输速度是多少?

学长4

(1)自我介绍一下

(2)Flink和SparkStreaming有什么区别?

(3)为什么SparkStreaming是微批次的?为什么它不能够做成实时处理的呢?

(4)SparkStreaming生成作业和提交作业的流程是怎么样的?(不是Spark的执行流程)

(5)SparkStreaming是如何拉取数据,协调和分配任务给Executor去执行?

(6)SparkStreaming从kafka拉取过来的数据是存到哪里呢?在整个过程中Driver起到什么作用呢?

(7)kafka的分区分配策略

(8)kafka的分区分配是哪个组件在做的?

(9)HBase的读写流程是怎样的?

(10)WAL是一定要写入的吗?不写入会有什么问题?

(11)HBase一个节点挂掉之后是如何进行故障恢复的?

(12)HMaster可以高可用吗?高可用之后我怎么知道我要连接哪个Master呢?

(13)多个Master同时工作的话,如何确定哪个是主的Master?

(14)Zookeeper是如何对大数据组件进行中央协调工作的?

(15)Zookeeper集群是如何做到数据的一致性的?

(16)Zookeeper的选举机制介绍一下?leader挂掉之后是如何进行重新恢复的?

(17)常用的Maven命令有哪些?使用遇到过Jar包冲突的问题?怎么解决的?如何查看包之间的依赖关系?

(18)是否使用过Spring和SpringBoot?

本站所有文章资讯、展示的图片素材等内容均为注册用户上传(部分报媒/平媒内容转载自网络合作媒体),仅供学习参考。 用户通过本站上传、发布的任何内容的知识产权归属用户或原始著作权人所有。如有侵犯您的版权,请联系我们反馈本站将在三个工作日内改正。