
中信银行学长2
(1)数据采集框架选型你做了什么,担任什么角色?为什么这么选?
(2)你理解数仓需要什么?哪些是必要的?可以结合你们的数仓讲讲
(3)canal高并发下会不会丢数据?讲讲canal的架构,组件,和你对它的理解?innodb和myisam。使用canal有啥区别?
(4)sparksql怎么解析sql的?比如求一张表,subject,grade,求各个学科的最大值
学长3数仓岗外包采集数据时,数据经历了两层flume,多次切分传输速度不会慢嘛。kafka的传输速度是多少?
学长4(1)自我介绍一下
(2)Flink和SparkStreaming有什么区别?
(3)为什么SparkStreaming是微批次的?为什么它不能够做成实时处理的呢?
(4)SparkStreaming生成作业和提交作业的流程是怎么样的?(不是Spark的执行流程)
(5)SparkStreaming是如何拉取数据,协调和分配任务给Executor去执行?
(6)SparkStreaming从kafka拉取过来的数据是存到哪里呢?在整个过程中Driver起到什么作用呢?
(7)kafka的分区分配策略
(8)kafka的分区分配是哪个组件在做的?
(9)HBase的读写流程是怎样的?
(10)WAL是一定要写入的吗?不写入会有什么问题?
(11)HBase一个节点挂掉之后是如何进行故障恢复的?
(12)HMaster可以高可用吗?高可用之后我怎么知道我要连接哪个Master呢?
(13)多个Master同时工作的话,如何确定哪个是主的Master?
(14)Zookeeper是如何对大数据组件进行中央协调工作的?
(15)Zookeeper集群是如何做到数据的一致性的?
(16)Zookeeper的选举机制介绍一下?leader挂掉之后是如何进行重新恢复的?
(17)常用的Maven命令有哪些?使用遇到过Jar包冲突的问题?怎么解决的?如何查看包之间的依赖关系?
(18)是否使用过Spring和SpringBoot?