中信银行大数据岗位面试题

央行授权，银联认证，正规乐刷pos机
免费申请POS机，费率低至0.38%秒到账
服务热线：18127011016，微信客服：1292496908

中信银行学长2

（1）数据采集框架选型你做了什么，担任什么角色？为什么这么选？

（2）你理解数仓需要什么？哪些是必要的？可以结合你们的数仓讲讲

（3）canal高并发下会不会丢数据？讲讲canal的架构，组件，和你对它的理解？innodb和myisam。使用canal有啥区别？

（4）sparksql怎么解析sql的？比如求一张表，subject，grade，求各个学科的最大值

学长3数仓岗外包

采集数据时，数据经历了两层flume，多次切分传输速度不会慢嘛。kafka的传输速度是多少？

学长4

（1）自我介绍一下

（2）Flink和SparkStreaming有什么区别？

（3）为什么SparkStreaming是微批次的？为什么它不能够做成实时处理的呢？

（4）SparkStreaming生成作业和提交作业的流程是怎么样的？（不是Spark的执行流程）

（5）SparkStreaming是如何拉取数据，协调和分配任务给Executor去执行？

（6）SparkStreaming从kafka拉取过来的数据是存到哪里呢？在整个过程中Driver起到什么作用呢？

（7）kafka的分区分配策略

（8）kafka的分区分配是哪个组件在做的？

（9）HBase的读写流程是怎样的？

（10）WAL是一定要写入的吗？不写入会有什么问题？

（11）HBase一个节点挂掉之后是如何进行故障恢复的？

（12）HMaster可以高可用吗？高可用之后我怎么知道我要连接哪个Master呢？

（13）多个Master同时工作的话，如何确定哪个是主的Master？

（14）Zookeeper是如何对大数据组件进行中央协调工作的？

（15）Zookeeper集群是如何做到数据的一致性的？

（16）Zookeeper的选举机制介绍一下？leader挂掉之后是如何进行重新恢复的？

（17）常用的Maven命令有哪些？使用遇到过Jar包冲突的问题？怎么解决的？如何查看包之间的依赖关系？

（18）是否使用过Spring和SpringBoot？

本站所有文章资讯、展示的图片素材等内容均为注册用户上传(部分报媒/平媒内容转载自网络合作媒体)，仅供学习参考。用户通过本站上传、发布的任何内容的知识产权归属用户或原始著作权人所有。如有侵犯您的版权，请联系我们反馈本站将在三个工作日内改正。