大数据建模、分析、挖掘技术应用研修班的通知
随着2015年9月guowuyuan发布了《关于印发促进大数据发展行动纲要的通知》,各类型数据呈现出了指数级增长,数据成了每个组织的命脉。今天所产生的数据比过去几年所产生的数据大好几个数量级,企业有了能够轻松访问和分析数据以提高性能的新机会,如何从数据中获取价值显得尤为重要,也是大数据相关技术急需要解决的问题。大数据是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产。数据建模不仅仅是任意组织数据结构和关系,还必须与最终用户的需求和问题联系起来,并提供指导,帮助确保正确的数据正确使用正确的方法获得正确的结果。
为响应科研及工作人员需求,根据《guowuyuan关于推行终身职业技能培训制度的意见》提出的“紧跟新技术、新职业发展变化,建立职业分类动态调整机制,加快职业标准开发工作”要求,中国管理科学研究院现代教育研究所联合龙腾亚太特举办“大数据建模、分析、挖掘技术应用研修班”。
时间
2022年8月5日 — 2022年8月9日 北京(同时转线上直播)
目标
1.掌握大数据建模分析与使用方法。
2.掌握大数据平台技术架构。
3.掌握国内外主流的大数据分析与BI商业智能分析解决方案。
4.掌握大数据分析在搜索引擎、广告服务推荐、电商数据分析、金融客户分析方面的应用。
5.掌握主流的基于大数据Hadoop和Spark、R的大数据分析平台架构和实际应用。
6.掌握基于Hadoop大数据平台的数据挖掘和数据仓库分布式系统平台应用,以及商业和开源的数据分析产品加上Hadoop平台形成大数据分析平台的应用剖析。
7.掌握常见的机器学习算法。
课程
时间安排 | 课程大纲 | 详细内容 | 实践训练 |
第一天 | 一、大数据概述 | 1.大数据及特点分析
2.大数据关健技术 3.大数据计算模式 4.大数据应用实例 |
|
二、大数据处理架构Hadoop | 1.Hadoop项目结构
2.Hadoop安装与使用 3.Hadoop集群的部署与使用 4.Hadoop 代表性组件 |
1.Hadoop Single Node Cluster
2. Hadoop Multi Node Cluster |
|
三、分布式文件系统HDFS | 1.HDFS体系结构
2.HDFS存储 3.HDFS数据读写过程 |
1.创建与查看HDFS目录
2.从本地计算复制文件到HDFS 3.将HDFS文件复制到本地计算机 4.复制与删除HDFS文件 5.Hadoop HDFS Web浏览HDFS |
|
四、分布式数据库HBase | 1.HBase访问接口
2.HBase数据类型 3.HBase实现原理 4.HBase运行机制 5.HBase应用 |
||
第二天 | 五、MapReduce | 1.MapReduce体系结构
2.MapReduce工作流程 3.资源管理调度框架YARN 4.MapReduce应用 |
|
六、Spark | 1.Spark生态与运行架构
2.Spark SQL 3.Spark部署与应用方式 |
1.Python Spark 安装
2.本地运行pyspark程序 3.在Hadoop YARN 运行pyspark 4.Spark Web UI |
|
七、IPython Notebook运行Python Spark程序 | 1.Anaconda
2.IPython Notebook使用Spark 3.使用IPython Notebook在Hadoop YARN模式运行 |
1.在不同模式运行IPython Notebook运行Python Spark命令
2.Python 程序开发 |
|
八、Python Spark集成开发环境 | 1.Python Spark集成开发环境部署配置
2.Spark数据分析库MLlib的开发部署 |
Spark MLlib应用程序示例 | |
第三天 | 九、Python Spark决策树二分类与多分类 | 1.决策树原理
2.大数据问题 3.决策树二分类 4.决策树多分类 |
1.搜集数据
2.数据准备:导入并转换数据、提取特征字段、提取标签 3. Python Spark建模,训练模型 4.预测数据 5.评估数据,给出评价指标并得到评估结果 |
十、Python Spark支持向量机 | 1.支持向量机SVM 原理与算法
2.Python Spark SVM程序设计 |
1.数据准备
2.建立SVM模型,训练模型 3.评估参数并找出最优参数 4.根据模型进行预测 |
|
十一、Python Spark 贝叶斯模型 | 1.朴素贝叶斯模型原理
2.Python Spark贝叶斯模型程序设计 |
1.建模贝叶斯模型,并进行对参数估计
2.训练模型,得到最优参数 3.根据模型进行预测 |
|
十二、Python Spark逻辑回归 | 1.逻辑回归原理
2.Python Spark逻辑回归程序设计 |
1.Python Spark逻辑回归建模
2.根据模型进行分类 |
|
第四天 | 十三、Python Spark回归分析 | 1.大数据分析
2.数据集介绍 3.Python Spark回归程序设计 |
1.数据准备
2.训练回归模型 3.建立评估指标 4.训练回归模型,并找到最优参数 5.根据模型进行预测 |
十四、Spark ML Pipeline 机器学习流程分类 | 1.机器学习流程组件:StringIndexer、OneHotEncoder、VectorAssembler等
2.使用Spark ML Pipeline 机器学习流程分类程序设计 |
1.数据准备
2.建立机器学习Pipeline流程 3.使用Pipeline流程训练 4.使用PipelineModel预测 5.评估模型准备率 |
|
十五、Python Spark 创建推荐引擎 | 1.推荐算法
2.推荐引擎大数据分析使用场景 3.推荐引擎设计 |
1.搜索数据
2.准备数据 3.训练模型 4.使用模型进行推荐 |
|
十六、项目实践 | 1.日志分析系统与日志挖掘项目实践
a、Hadoop,Spark,ELK技术构建日志数据仓库 b、互联网微博日志分析系统项目 1.推荐系统项目实践 a、电影数据分析与个性化推荐关联分析项目 |
郭老师 258545206(at)qq.com
关注“人工智能技术与咨询”,了解更多资讯!
郭老师 195--1112--2152(V)
G:人工智能技术与咨询