在线咨询办理VIP会员

联系QQ1980803031

    在线开通VIP请联系QQ1980803031

VIP会员全站免金币

100%可下载

网盘收集文件

分享你无法观看或愿意共享的加密课程

注:解密后的课程会发到本站,是否加密发布由本站决定

查看: 2338|回复: 32

[云计算&大数据] Spark 2.x + Python 大数据机器学习实战 视频教程

[复制链接]
  • TA的每日心情
    擦汗
    1 小时前
  • 签到天数: 101 天

    连续签到: 101 天

    [LV.6]常住居民II

    41

    主题

    1512

    帖子

    7056

    积分

    终身vip会员

    Rank: 25Rank: 25Rank: 25Rank: 25Rank: 25Rank: 25Rank: 25

    积分
    7056
    发表于 2021-3-5 02:29:11 | 显示全部楼层 |阅读模式
    机器学习是近二十来年兴起的多领域学科,机器学习算法可从数据中建立模型,并利用模型对未知数据进行预测。机器学习技术不断进步,应用相当广泛,例如推荐引擎、定向广告、需求预测、垃圾邮件过滤、医学诊断、自然语言处理、搜索引擎、诈骗侦测、证券分析、视觉辨识、语音识别、手写识别等。# `+ q, s- M* Z# t- W1 ?; U

    9 R7 N! A" ^  [7 p% u% w为什么近年来机器学习变得如此热门,各大公司都争相投入?因为机器学习需要大量数据进行训练。大数据的兴起带来了大量的数据以及可存储大量数据的分布式存储技术,例如Hadoop HDFS、NoSQL……还有分布式计算可进行大量运算,例如 Spark 基于内存的分布式计算框架/架构,可以大幅提升性能。
    5 L. E- o+ L0 O  l3 E
    ) `3 j: [  z6 i& u3 V8 h' ?Python是数据分析最常用的语言之一,而Apache Spark是一个开源的强大的分布式查询和处理引擎。本书用详尽的例子介绍了如何使用Python来调用Spark的新特性,如何处理结构化和非结构化的数据,如何使用PySpark中一些基本的可用数据类型,如何生成机器学习模型、操作图像、阅读串流数据以及在云上部署你的模型。
    ; `" H, W/ R: z4 l7 w$ l& }8 T4 t! ]
    / \6 ~3 w' u9 U" O# u4 L本课程系统讲解如何在Spark2.0上高效运用Python来处理数据并建立机器学习模型,帮助读者开发并部署高效可拓展的实时Spark解决方案。3 u7 G  D1 ?( d! N2 t9 y/ B  y. h

    ) y% [$ q; m# n本课程从浅显易懂的“大数据和机器学习”原理说明入手,讲述大数据和机器学习的基本概念,如分析、分类、训练、建模、预测、推荐引擎、二元分类、多元分类、回归分析和Pipeline等;
    ; j7 J- R3 l- G为降低学习大数据技术的门槛,提供了丰富的案例实践操作和范例程序编码,展示了如何在单机Windows系统上建立Spark 2.x + Python开发环境;# g: k' b6 B/ f0 a: \
    适合于学习大数据基础知识的初学者,更适合正在使用机器学习想结合大数据技术的人员;
    + d3 ^$ z- V1 N' z, E) r
    4 y- C1 X  N  Z课程目录" E9 |- i( B( P+ Q& o1 c
    第一章、搭建Spark 2.x+Python开发环境及基本开发入门) `9 w! Y& I3 C- f' ]9 X
    1、快速环境搭建:导入Windows7虚拟机至VMWARE及启动系统和远程桌面连接( r% n  ~& z. w% N  t4 D2 E# s) A
    2、快速环境搭建:Windows系统如何安装pyspark模块到Anaconda及启动PyCharm了解Spark MLlib机器学习库源码及走读
    7 M, }4 ?- W: R7 {5 k& u5 [2 @3、快速环境搭建:使用PyCharm开发Spark程序(读取文本数据封装RDD)
    0 F0 a2 [! A! ?* }( x) |8 r4、PySpark SQL快速开发:结构化海量数据处理框架SparkSQL介绍、DataFrame概述及分析数据两种方式
    $ C' W6 Y% ~- Q. }8 H, @5、PySpark SQL快速开发:使用SparkSession读取文本数据分析及CSV格式数据分析(封装DataFrame分布式数据集)8 n6 A/ c  ~) p8 v. T
    6、PySpark SQL快速开发:基于Jupyter Notebook读取航空航天数据、使用DSL分析
    " w, n) Z8 P3 D* ?2 A0 N( h! b7、PySpark SQL快速开发:使用DSL分析航天航空数据及如何将DataFrame转换为Pandas中dataframe
    0 Y7 Y0 V0 ^8 w
    8 K; J1 o8 R( ^4 p3 S第二章、Python Spark MLlib 创建推荐引擎(ALS算法篇)
    # B% U% G" |4 n& L8 D+ E8、推荐系统几大分类(不同数据、不同算法)概述、以亚马逊和JD为例查看推荐(检索物品后推荐)及推荐系统预测(评分和行为)
    2 j9 I1 J# J; ?6 L+ \9、协同过滤推荐算法CF核心思想、算法数据(用户对物品的评价)及矩阵分解两种方式(SVD和ALS算法)+ N  X- |0 i; G
    10、CF的两种推荐方式(基于用户推荐和基于物品推荐)、计算用户或物品相似度常见四种方式及Spark MLlib中ALS算法核心(数据封装、算法超参数)9 [0 x6 G9 I% L- p4 N; c
    11、推荐数据集:电影评分数据、通过源码剖析Spark MLlib中协同过滤算法实现类(Rating、ALS和MatrixFactorizationModel)) B( Q* `7 |& x. X% Q+ q' i
    12、使用Jupyter Notebook开发电影推荐:读取MovieLens评分数据、组合特征、训练模型、预测评分和为用户或电影进行Top10推荐9 [( S# h( U$ W1 c( ^7 E; m6 }9 v
    2 F+ e$ o4 N, W+ [( e  u, `+ e
    第三章、Python Spark MLlib 创建推荐引擎(深入实践篇)+ m7 C) k1 e; e1 g- O% g3 Q
    13、回顾综述Spark MLlib中支持推荐系统中不同算法(内容推荐Word2Vector、关联规则FP-Growth和协同过滤ALS)  [+ B( F( F& w( W8 v3 G7 g
    14、针对电影推荐开发优化:将数据集划分为训练和测试、计算模型评估指标MSE和RMSE值
    7 S# H' |* D4 M15、针对电影推荐开发优化:定义函数封装模型评估(依据传递模型和测试数据集); }$ }9 P" ?% [7 I* ?- P3 V5 O
    16、针对电影推荐开发优化:使用多层嵌套FOR循环设置不同超参数值训练和评估模型,获取最佳模型
    7 F! F4 O+ b& v8 p  r+ P17、针对电影推荐开发优化:保存加载模型、机器学习简易开发流程和使用PyCharm开发封装模型训练与保存
    / e- [8 X9 z5 o, o& @  B7 b8 \18、针对电影推荐开发优化:依据输入用户或物品进行相关推荐(加载离线训练完成的模型)
    ' Z8 T( c; @) a
    4 u- [9 S1 w8 @# S第四章、Python Spark MLlib 构建分类模型" Y* B9 h; A$ T; c
    19、综述Spark MLlib中实现常见分类算法库(二分类和多分类)及查看实现源码( A9 K( A4 D. u9 ?2 d
    20、监督学习算法数据格式标签向量LabelPoint及Kaggle竞赛StumbleUpon数据集说明(预测网址是否长青或短暂)
    % `8 s- o3 m; l) C8 D. L21、构建分类系统之数据调研、数据过滤转换和类别特征提取方式1-of-K详解! t/ W/ f* ~) f
    22、构建分类系统之分别定义函数提取类别label和转换类别数据提取特征features# n, f! V0 @/ v  i8 l
    23、构建分类系统之封装数据、划分数据集、使用决策树分类及二分类评估指标PR和ROC! T5 ^1 G/ O/ F; _, E
    24、构建分类系统之使用集成学习算法随机森林RF训练模型和评估性能
    - m. K. y1 t0 ?: g25、构建分类系统之使用梯度提升算法GBT训练模型和评估性能  ~  W/ q% S/ r6 m8 r; q
    26、构建分类系统之分别使用朴素贝叶斯、支持向量机SVM和逻辑回归算法训练模型与预测
    ! B  H- G) ]6 j/ m
    % B& ]# w1 m# r: w+ O3 s$ w第五章、Python Spark MLlib 构建回归分析
    ' l* P& f% }$ N1 |9 Q# t27、Spark MLlib中回归算法实现库(LR、DT等)、过拟合(L1和L2正则化)和阅读算法库源码
    4 Q  B9 b7 B2 y28、BikeSharing数据集调研、读取数据并编写函数提取特征和标签2 ^+ U0 Z5 V0 P
    29、构建回归模型之划分数据集、使用决策树回归算法训练模型及定义函数评估模型
    " B# n* U" D5 @8 s. c. X* a30、构建回归模型之使用随机森林RF和梯度提升GBT回归算法训练模型及评估模型! t% J6 g! g% t& ?
    31、构建回归模型之使用LinearRegressionWithSGD训练模型及引出要转换类别特征数据问题1 G' k/ ^0 j5 U+ X) ]
    * b% u$ c) F# ]
    第六章、Spark ML Pipeline 机器学习流程回归分析
    # `" a- x5 S; h3 K- @5 F32、回顾复习Spark MLlib中算法(分类、回归和推荐)及基于DataFrame ML几个核心概念剖析9 h% R3 f1 n' x% X
    33、_查看Spark ML机器学习库源码及SparkSession读取电影评分数据封装DataFrame
    / q9 u% K2 ^1 U9 Q' D34、基于DataFrame 协同过滤算法ALS进行电影推荐模型训练和相关预测5 h+ A' B/ }( D% Q* K
    35、基于DataFrame 决策树回归算法DecisionTreeRegressor训练模型(VectorAssembler特征组合)和评估(RegressionEvaluator)# a2 S% m! [' q2 k
    36、使用VectorIndexer类别特征转换及使用TrainValidationSplit进行超参数调整获取最佳模型
    0 _' `8 o3 t8 f37、使用交叉验证CrossValidator方式训练评估模型找到最佳模型
    ! k; d9 {5 h  v; Q$ s. L38、Pipeline管道使用说明、结合共享单车出租预测进行构建Pipeline Model模型和预测
    $ I' R8 T0 u" i% Y; J% N( h$ i* W. {  Z( h7 R4 h
    下载地址:3 J; ^7 ^5 r6 _9 e: i
    游客,如果您要查看本帖隐藏内容请回复

    . }2 t) Q6 B8 W3 s1 X! P) E
    5 S/ }! y3 f' y6 I( H% V. a' Z% B

    三六五网络学院 - 论坛版权1、本主题所有言论和图片纯属会员个人意见,与本论坛立场无关
    2、本站所有课程收集于互联网,该帖子作者与三六五网络学院不享有任何版权,如有侵权请联系本站删除
    3、本站部分内容转载自其它网站,但并不代表本站赞同其观点和对其真实性负责
    4、如本帖侵犯到任何版权问题,请立即告知本站,本站将及时予与删除并致以最深的歉意
    5、三六五网络学院管理员和版主有权不事先通知发贴者而删除本文

    回复

    使用道具 举报

  • TA的每日心情

    6 小时前
  • 签到天数: 1259 天

    连续签到: 984 天

    [LV.10]以坛为家III

    13

    主题

    7987

    帖子

    1万

    积分

    终身vip会员

    Rank: 25Rank: 25Rank: 25Rank: 25Rank: 25Rank: 25Rank: 25

    积分
    10425
    发表于 2021-3-5 08:02:14 | 显示全部楼层
    感谢亲的分享
    回复

    使用道具 举报

  • TA的每日心情
    难过
    2 小时前
  • 签到天数: 1258 天

    连续签到: 984 天

    [LV.10]以坛为家III

    12

    主题

    9666

    帖子

    1万

    积分

    终身vip会员

    Rank: 25Rank: 25Rank: 25Rank: 25Rank: 25Rank: 25Rank: 25

    积分
    12143

    vip会员

    发表于 2021-3-5 09:00:14 | 显示全部楼层
    我可以回帖了,看看下载地址
    回复

    使用道具 举报

  • TA的每日心情
    奋斗
    前天 07:23
  • 签到天数: 85 天

    连续签到: 2 天

    [LV.6]常住居民II

    8

    主题

    414

    帖子

    1665

    积分

    终身vip会员

    Rank: 25Rank: 25Rank: 25Rank: 25Rank: 25Rank: 25Rank: 25

    积分
    1665
    发表于 2021-3-5 09:11:24 | 显示全部楼层
    好好学习,天天向上!
    回复

    使用道具 举报

  • TA的每日心情
    慵懒
    前天 20:19
  • 签到天数: 283 天

    连续签到: 30 天

    [LV.8]以坛为家I

    6

    主题

    555

    帖子

    2091

    积分

    终身vip会员

    Rank: 25Rank: 25Rank: 25Rank: 25Rank: 25Rank: 25Rank: 25

    积分
    2091
    发表于 2021-3-5 09:35:42 | 显示全部楼层
    感谢亲的分享
    回复

    使用道具 举报

  • TA的每日心情

    半小时前
  • 签到天数: 1258 天

    连续签到: 984 天

    [LV.10]以坛为家III

    24

    主题

    7977

    帖子

    1万

    积分

    终身vip会员

    Rank: 25Rank: 25Rank: 25Rank: 25Rank: 25Rank: 25Rank: 25

    积分
    10391
    发表于 2021-3-5 16:44:26 | 显示全部楼层
    11111111111
    回复

    使用道具 举报

  • TA的每日心情

    5 小时前
  • 签到天数: 1259 天

    连续签到: 985 天

    [LV.10]以坛为家III

    21

    主题

    7866

    帖子

    1万

    积分

    终身vip会员

    Rank: 25Rank: 25Rank: 25Rank: 25Rank: 25Rank: 25Rank: 25

    积分
    10328
    发表于 2021-3-5 17:33:42 | 显示全部楼层
    qazwsxqazwsx
    回复

    使用道具 举报

  • TA的每日心情

    昨天 16:28
  • 签到天数: 580 天

    连续签到: 3 天

    [LV.9]以坛为家II

    1

    主题

    1333

    帖子

    2046

    积分

    终身vip会员

    Rank: 25Rank: 25Rank: 25Rank: 25Rank: 25Rank: 25Rank: 25

    积分
    2046
    发表于 2021-3-6 13:22:36 | 显示全部楼层
    Spark 2.x + Python 大数据机器学习实战
    回复

    使用道具 举报

  • TA的每日心情
    奋斗
    昨天 07:14
  • 签到天数: 62 天

    连续签到: 2 天

    [LV.6]常住居民II

    2

    主题

    104

    帖子

    608

    积分

    终身vip会员

    Rank: 25Rank: 25Rank: 25Rank: 25Rank: 25Rank: 25Rank: 25

    积分
    608
    发表于 2021-3-6 14:17:48 | 显示全部楼层
    6666666666666
    回复

    使用道具 举报

  • TA的每日心情
    奋斗
    昨天 14:39
  • 签到天数: 228 天

    连续签到: 1 天

    [LV.7]常住居民III

    2

    主题

    459

    帖子

    821

    积分

    终身vip会员

    Rank: 25Rank: 25Rank: 25Rank: 25Rank: 25Rank: 25Rank: 25

    积分
    821
    发表于 2021-3-6 14:23:52 | 显示全部楼层
    顶楼主啦..希望楼主多发精品好帖啦.....
    回复

    使用道具 举报

    懒得打字嘛,点击右侧快捷回复
    您需要登录后才可以回帖 登录 | 注册

    本版积分规则

    商务合作

    客服QQ:1980803031
    点击这里给我发消息
    Copyright;  ©2012-2016  教程论坛  Powered byDiscuz!  技术支持:三六五网络学院