课程背景:
我们正生活在一个信息爆炸的时代。全球主干通信网每天传输数万兆兆字节数据。医疗保健业由医疗记录、病人监护和医学图像产生大量数据。搜索引擎支持的数十亿次Web搜索每天处理数万兆兆字节数据。社团和社会化媒体已经成为日趋重要的数据源,产生数字图像、视频、网络博客、网络社区和形形色色的社会网络。产生海量数据的数据源不胜枚举。
数据的爆炸式增长、广泛可用和巨大数量使得我们的时代成为真正的数据时代。急需功能强大和通用的工具,以便从这些海量数据中发现有价值的信息,把这些数据转化成有组织的知识。这种需求导致了数据挖掘的诞生。这个领域是年青的、动态变化的、生机勃勃的。数据挖掘已经并且将继续在我们从数据时代大步跨入信息时代的历程中做出贡献。
在本课程中,您将学习如何用R编程,以及如何使用R进行有效的数据分析。您将学习如何安装和配置统计编程环境所需的软件,并描述通用编程语言概念,因为它们在高级统计语言中实现。该课程涵盖了统计计算中的实际问题,其中包括用R编程,将数据读入R,访问R包,编写R函数,调试,剖析R代码,以及组织和注释R代码。统计数据分析的主题将提供工作实例。
课程大纲
一: 为什么我们需要数据挖掘?
1、 什么是数据挖掘?——海量数据中寻找有价值的信息
2、 数据挖掘如何改变我们的生活?——推荐系统及精准营销
3、 数据挖掘对企业的意义——用户是业务的中心,用户数据是关键资产
二、使用R编程的介绍
1、 基本编程概念:函数,变量,数据类型和向量
2、 将数据加载到R中
3、 概括您的数据
4、 图形化数据并保存图表
三、使用Tidyverse操作数据
1、 使用管道(%>%)创建无缝工作流程
2、 使用select()选择一列或多列
3、 使用filter()选择一行或多行
4、 使用mutate()添加新变量
5、 使用arrange()更改行的顺序
6、 使用summarize()将变量转换为单个值
7、 使用group_by()对观察集进行分组
四、使用ggplot2可视化数据
1、 GGplot2语法
2、 散点图
3、 barplots
4、 线图
五、课堂实操任务
1、 将数据读入内核
2、 使用直方图绘制数值变量
3、 进行t检验
4、 使用条形图显示分类数据
5、 使用卡方检验
""