课程方针
- 大数据性能调优的本质
- Spark 性能调优要点分析
- Spark 资本利用道理流程
- Spark 资本调优最好实战
- Spark 更高性能的算子
课程简介
我们谈大数据性能调优,到底在谈什么,它的本质是什么,以及 Spark 在性能调优部分的要点,这两点让在进入性能调优之前都是一个相当重要的题目,它的本质限制了我们调优到底要到达一个什么样的方针大概说我们是从什么根源上停止调优。希望我们的课程能为同学们带出以下的启发: - 领会大数据性能调优的本质
- 领会 Spark 性能调优要点分析
- 领会 Spark 在资本优化上的一些参数调优
- 领会 Spark 的一些比力高效的 RDD 操纵算子
大数据性能调优的本质编程的时辰发现一个惊人的纪律,软件是不存在的!一切编程高手级此外人不管做什么范例的编程,终极思考的都是硬件方面的题目!终极思考都是在一秒、一毫秒、甚至一纳秒究竟是若何运转的,而且基于此停止算法实现和性能调优,最初都是回到了硬件! 在大数据性能的调优,它的本质是硬件的调优!即基于 CPU(计较)、Memory(存储)、IO-Disk/ Network(数据交互) 根本上构建算法和性能调优!我们在计较的时辰,数据必定是存储在内存中的。磁盘IO怎样去向置和收集IO怎样去优化。
Spark 性能调优要点分析在大数据性能本质的思绪上,我们应当需要在那些方面停止调优呢?比如: - 并行度
- 紧缩
- 序例化
- 数据倾斜
- JVM调优 (例如 JVM 数据结构化优化)
- 内存调优
- Task性能调优 (例如包括 Mapper 和 Reducer 两品种型的 Task)
- Shuffle 收集调优 (例如小文件合并)
- RDD 算子调优 (例如 RDD 复用、自界说 RDD)
- 数据当地性
- 容错调优
- 参数调优
大数据最怕的就是数据当地性(内存中)和数据倾斜大概叫数据散布不平衡、数据转输,这个是一切散布式系统的题目!数据倾斜实在是跟你的营业慎密相关的。所以调优 Spark 的重点一定是在数据当地性和数据倾斜动手。 - 资本分派和利用:你可以申请几多资本以及若何最优化的利用计较资本
- 关发调优:若何基于 Spark 框架内核道理和运转机制最优化的实现代码功用
- Shuffle调优:散布式系统必定面临的杀手级此外题目
- 数据倾斜:散布式系统营业自己稀有据倾斜
- Spark 资本利用道理流程
这是一张谰纶官方的典范资本利用流程图,这里有三大组件,第一部分是 Driver 部分,第二就是具体处置数据的部分,第三就是资笔莆理部分。这一张图中心有一个进程,这暗示在法式运转之前向资笔莆理器申请资本。在现实生产情况中,Cluster Manager 一般都是 Yarn 的 ResourceManager,Driver 会向 ResourceManager 申请计较资本(一般情况下都是在发生存较之前一次性停止申请请求),分派的计较资本就是 CPU Core 和 Memory,我们具体的 Job 里的 Task 就是基于这些分派的内存和 Cores 构建的线程池来运转 Tasks 的。
免责声明
本站所有资源均是网上搜集或网友上传提供,本站内容仅供观摩学习交流之用,将不对任何资源负法律责任。如有侵犯您的版权,请及时发邮件联系我们(2995125568@qq.com),我们将尽快处理!
|