当前位置: 首页 > 资源下载  > 电子书 > 计算机

Python+Spark2.0+Hadoop机器学习与大数据实战

12/16/2018 9:53:18 PM 人评论

适读人群 :正在学习大数据理论和技术的人员作为上机实践用的教材1.Hadoop集群安装与分散式运算和存储介绍通过实机操作,学会如何安装Virtual Box、Ubuntu Linux、Hadoop单机与多台机器集群安装,并学会使用HDFS分散式存储与MapReduce分散式运算。2.Python Spark 2.0安装

Python+Spark2.0+Hadoop机器学习与大数据实战

Python+Spark2.0+Hadoop机器学习与大数据实战

编辑推荐

适读人群 :正在学习大数据理论和技术的人员作为上机实践用的教材

1.Hadoop集群安装与分散式运算和存储介绍
通过实机操作,学会如何安装Virtual Box、Ubuntu Linux、Hadoop单机与多台机器集群安装,并学会使用HDFS分散式存储与MapReduce分散式运算。
2.Python Spark 2.0安装
通过实机操作,学会安装Spark 2.0,并在本机与多台机器集群执行Python Spark应用程序。同时介绍如何在iPython Notebook互动界面执行Python Spark指令。安装eclipse整合开发界面,开发Python Spark应用程序,大幅提升程序开发生产力。
3.Python Spark SQL、DataFrame数据统计与数据可视化
Spark SQL 即使非程序设计人员,只需要懂得SQL语法,就可以使用。DataFrame API 可使用类SQL的方法,如select()、groupby()、count(),很容易进行统计,大幅降低大数据分析的学习门槛。Spark DataFrame可转换为Pandas DataFrame,运用Python丰富的数据可视化组件(例如matplotlib)进行数据可视化。
4.Python Spark MLlib机器学习
以大数据分析实际案例MoiveLens、StumbleUpon、CovType、BikeSharing介绍如何使用Python Spark运用机器学习演算法进行数据处理、训练、建立模型、训练验证找出*佳模型、预测结果。
5.Python Spark ML Pipeline机器学习流程
以大数据实际案例示范使用Python Spark ML Pipeline机器学习流程进行二元分类、多元分类、回归分析,将机器学习的每一个步骤建立成Pipeline流程:数据处理 →运算法训练数据→建立模型→找出*佳模型→预测结果。Spark ML Pipeline 通过内建数据处理模块与机器学习运算法,减轻数据分析师在程序设计上的负担。

内容简介

《Python+Spark 2.0+Hadoop机器学习与大数据实战》从浅显易懂的“大数据和机器学习”原理说明入手,讲述大数据和机器学习的基本概念,如分类、分析、训练、建模、预测、机器学习(推荐引擎)、机器学习(二元分类)、机器学习(多元分类)、机器学习(回归分析)和数据可视化应用等。书中不仅加入了新近的大数据技术,还丰富了“机器学习”内容。
为降低读者学习大数据技术的门槛,书中提供了丰富的上机实践操作和范例程序详解,展示了如何在单机Windows系统上通过Virtual Box虚拟机安装多机Linux虚拟机,如何建立Hadoop集群,再建立Spark开发环境。《Python+Spark 2.0+Hadoop机器学习与大数据实战》中介绍搭建的上机实践平台并不限制于单台实体计算机。对于有条件的公司和学校,参照书中介绍的搭建过程,同样可以实现将自己的平台搭建在多台实体计算机上,以便更加接近于大数据和机器学习真实的运行环境。
《Python+Spark 2.0+Hadoop机器学习与大数据实战》非常适合于学习大数据基础知识的初学者阅读,更适合正在学习大数据理论和技术的人员作为上机实践用的教材。

作者简介

林大贵,从事IT行业多年,在系统设计、网站开发、数字营销、商业智慧、大数据、机器学习等领域具有丰富的实战经验。

附件下载

  • 下载

    百度网盘下载

    下载: 所需积分:90

  • 积分获取方法:先给账户进行充值,然后进行积分兑换,积分兑换比例:1元可兑换10个积分.
    具体可参考帮助如何获取积分说明

相关资源

  • MATLAB量化金融分析基础与实战

    《MATLAB量化金融分析基础与实战》是一本侧重于阐述MATLAB在量化金融分析领域功能的工具书。书中精选了量化金融分析领域常见的重要函数和模型加以介绍并配有示例,以方便读者学习。本书涵盖了MATLAB基本知识、数据处理、Python交互、金融建模、高效并发程序设计和报告生成…

    5/12/2025 9:33:45 PM
  • Fortran程序设计(第四版)

    本书介绍了Fortran语言基础知识,以及结构化程序设计思想,该设计思想使得大型Fortran程序的维护更易于实现。本书面向的读者是科学/工程类学生,意在对他们进行相应领域的实践训练。本书是一本理想的Fortran语言资料。 本书在讲述Fortran知识过程中,按适用于大型项目开

    4/13/2025 1:24:25 PM
  • 人机交互基础教程(第3版)

    Delphi是面向对象的可视化软件开发平台,它提供了大量VCL组件,具有强大的数据库开发和网络编程能力,极大地提高了应用系统的开发速度,是目前软件开发工具之一。  《人机交互基础教程(第3版)》以DelphiXE8为开发平台进行修订,增加基于Android应用程序设计和基于

    3/23/2025 11:44:42 PM
  • C++面向对象程序设计(第三版)/“十三五”高校计算机应用技术系列规划教材

    《C++面向对象程序设计(第三版)/“十三五”高校计算机应用技术系列规划教材》是为具有C语言基础的读者编写的,主要介绍C什面向对象程序设计的基本知识和编程方法,全面讲述了C++面向对象的基本特征。内容包括类、对象、继承、派生类、多态性、虚函数、运算符重载、

    2/23/2025 12:55:51 PM