当前位置: 首页 > 资源下载  > 电子书 > 计算机

Spark:大数据集群计算的生产实践

12/19/2018 11:23:38 PM 人评论

适读人群 :开发人员、Spark应用的项目经理,以及那些在考虑将开发的Spark应用程序迁移到生产环境的系统管理员(或者DevOps)本书涵盖了开发及维护生产级Spark应用的各种方法、组件与有用实践。作者均为大数据社区的知名专家,带着你一步步从概念验证或Spark应用的demo版

Spark:大数据集群计算的生产实践

Spark:大数据集群计算的生产实践

编辑推荐

适读人群 :开发人员、Spark应用的项目经理,以及那些在考虑将开发的Spark应用程序迁移到生产环境的系统管理员(或者DevOps)

本书涵盖了开发及维护生产级Spark应用的各种方法、组件与有用实践。作者均为大数据社区的知名专家,带着你一步步从概念验证或Spark应用的demo版迁移到生产环境,用真实案例分析常见问题、限制、挑战和机会。

调优Spark应用

管理资源、组织存储、做好监控

了解在生产环境中使用Spark时有哪些潜在的问题

知晓Spark用在何处*能发挥作用

预估集群的规模,搞清楚硬件需求

通过内存管理、分区、shuffle等技术提升性能

用Kerberos保证数据的安全

解决Spark streaming在生产环境中的问题

将Spark与Yarn、Mesos、Tachyon等集成


内容简介

本书针对spark从验证性环境迁移到实际生产环境时会遇到的各种问题给出了实际的帮助,涵盖了开发及维护生产级Spark应用的各种方法、组件与有用实践。全书分为6章,第1 ~ 2章帮助读者深入理解Spark的内部机制以及它们在生产流程中的含义;第3章和第5章阐述了针对配置参数的法则和权衡方案,用来调优Spark,改善性能,获得高可用性和容错性;第4章专门讨论Spark应用中的安全问题;第6章则全面介绍生产流,以及把一个应用迁移到一个生产工作流中时所需要的各种组件,同时对Spark生态系统进行了梳理。

作者简介

Ilya Ganelin 从机器人专家成功跨界成为一名数据工程师。他曾在密歇根大学花费数年时间研究自发现机器人(self-discovering robot),在波音公司从事手机及无线嵌入式DSP(数据信号处理)软件开发项目,随后加入Capital One 的数据创新实验室,由此进入大数据领域。Ilya是Apache Spark核心组件的活跃贡献者以及Apache Apex的提交者(committer),他希望研究构建下一代分布式计算平台。同时,Ilya还是一个狂热的面包烘焙师、厨师、赛车手和滑雪爱好者。


Ema Orhian 是一位对伸缩性算法充满激情的大数据工程师。她活跃于大数据社区,组织会议,在会上发表演讲,积极投身于开源项目。她是jaws-spark-sql-rest(SparkSQL数据仓库上的一种资源管理器)的主要提交者。Ema一直致力于将大数据分析引入医疗领域,开发一个对大型数据集计算统计指标的端到端的管道。


Kai Sasaki 是一位日本软件工程师,对分布式计算和机器学习很感兴趣。但是一开始他并未从事Hadoop或Spark相关的工作,他最初的兴趣是中间件以及提供这些服务的基础技术,是互联网驱使他转向大数据技术领域。Kai一直是Spark的贡献者,开发了不少MLlib和ML库。如今,他正尝试研究将机器学习和大数据结合起来。他相信Spark在大数据时代的人工智能领域也将扮演重要角色。他的GitHub地址为:https://github.com/Lewuathe。


Brennon York既是一名特技飞行员,也是一位计算机科学家。他的爱好是分布式计算、可扩展架构以及编程语言。自2014年以来,他就是Apache Spark的核心贡献者,目标是通过发展GraphX和核心编译环境,培育一个更强大的Spark社区,激发更多合作。从为Spark提交贡献开始,York就一直在用Spark,而且从那个时候开始,就使用Spark将应用带入生产环境。


李刚,曾在IBM工作近20年,在数据中心IT建设、优化及管理领域有深入的研究和丰富的经验。在IBM期间负责IBM系统服务相关解决方案的开发与管理,其中包含数据中心基础设施与IT技术瓶体、数据中心高可用性管理暨灾难恢复,以及企业IT战略及IT架构优化等相关领域。


 

附件下载

  • 下载

    百度网盘下载

    下载: 所需积分:90

  • 积分获取方法:先给账户进行充值,然后进行积分兑换,积分兑换比例:1元可兑换10个积分.
    具体可参考帮助如何获取积分说明

相关资源

  • MATLAB量化金融分析基础与实战

    《MATLAB量化金融分析基础与实战》是一本侧重于阐述MATLAB在量化金融分析领域功能的工具书。书中精选了量化金融分析领域常见的重要函数和模型加以介绍并配有示例,以方便读者学习。本书涵盖了MATLAB基本知识、数据处理、Python交互、金融建模、高效并发程序设计和报告生成…

    5/12/2025 9:33:45 PM
  • Fortran程序设计(第四版)

    本书介绍了Fortran语言基础知识,以及结构化程序设计思想,该设计思想使得大型Fortran程序的维护更易于实现。本书面向的读者是科学/工程类学生,意在对他们进行相应领域的实践训练。本书是一本理想的Fortran语言资料。 本书在讲述Fortran知识过程中,按适用于大型项目开

    4/13/2025 1:24:25 PM
  • 人机交互基础教程(第3版)

    Delphi是面向对象的可视化软件开发平台,它提供了大量VCL组件,具有强大的数据库开发和网络编程能力,极大地提高了应用系统的开发速度,是目前软件开发工具之一。  《人机交互基础教程(第3版)》以DelphiXE8为开发平台进行修订,增加基于Android应用程序设计和基于

    3/23/2025 11:44:42 PM
  • C++面向对象程序设计(第三版)/“十三五”高校计算机应用技术系列规划教材

    《C++面向对象程序设计(第三版)/“十三五”高校计算机应用技术系列规划教材》是为具有C语言基础的读者编写的,主要介绍C什面向对象程序设计的基本知识和编程方法,全面讲述了C++面向对象的基本特征。内容包括类、对象、继承、派生类、多态性、虚函数、运算符重载、

    2/23/2025 12:55:51 PM