当前位置: 首页 > 职业素养 > 办公技能 > 基于Python语言的数据挖掘
课程纲要:
**章 Python基础入门
1、初识Python
1.1 Python简介
1.2 搭建Python环境
1.3 **个Python程序
2、Python基本元素
2.1 变量
2.2 数字
2.3 字符串
2.4 数据类型
2.4.1 整型
2.4.2 浮点型
2.4.3 布尔型
2.4.4 类型转换
2.5 操作符
2.5.1算术操作符
2.5.2比较操作符
2.5.3逻辑操作符
2.5.4操作符优先级
3、Python容器
3.1 列表
3.1.1 创建列表
3.1.2 添加元素
3.1.3 获取列表中的元素
3.1.4 删除列表中的元素
3.1.5 列表分片
3.2 元组
3.2.1 元组的特点
3.2.2 创建元组
3.2.3 访问元组
3.2.4 更新元组
3.2.5 删除元组
3.3 字典
3.3.1 字典的特点
3.3.2 创建字典
3.3.3 更新字典
3.3.4 访问字典
3.3.5 删除字典
3.4 集合
3.4.1 集合的特点
3.4.2 创建集合
3.4.3 访问集合
4、Python代码结构
4.1 注释
4.2 作用域
4.3 条件语句
4.4 循环语句
4.4.1 while循环语句
4.4.2 for循环语句
4.4.3 break语句
4.4.4 continue语句
4.5 函数
4.5.1 为什么要用函数
4.5.2 函数的创建和调用
4.5.3 函数的参数(形参,实参)
4.5.4 函数的返回值
4.5.5 匿名函数:lambda表达式
4.5.6 递归
4.6 异常
4.6.1 异常的概念
4.6.2 try…except语句
4.6.3 try…except…finally语句
4.6.4 raise语句
4.6.5 with语句
4.7 模块,包,程序
4.7.1 模块的概念
4.7.2 import导入模块
4.7.3 __name__ = ‘__main__’语句
4.7.4 包的概念
4.8 类和对象
4.8.1 类和对象的概念
4.8.2 对象=属性 方法
4.8.3 class, self关键字
4.8.4 继承
5、小试牛刀
5.1 编写一个简单的程序
5.1.1 读取一个数据文件
5.1.2 找出其中的**大和**小值
第二章 Python数据分析入门
1、数据统计分析简介
1.1 数据统计分析的意义
1.2 数据的常见关键特征
2、Python数据分析相关库入门
2.1 NumPy简介
2.2 pandas简介
2.3 pandas的数据类型
2.3.1 Series数据类型
2.3.2 DataFrame数据类型
2.4 pandas对数据的常见操作
2.4.1 数据统计
2.4.2 索引数据
2.4.3 数据排序
2.5 可视化利器matplotlib简介
3、数据预处理
3.1 数据预处理的意义
3.2 数据预处理的常见方法
3.2.1去除奇异值
3.2.2去除重复值
3.2.3归一化
3.2.4数据清洗
3.2.5数据转换
3.3 利用pandas进行数据预处理
4、Python数据分析的综合应用案例-饭店营业额数据分析
4.1 数据模拟生成
4.2 预处理:删除缺失值
4.3 使用matplotlib绘制饭店每天的营业额情况折线图
4.4 按月份进行统计,使用matplotlib绘制柱状图显示每个月份的营业额
4.5 按季度统计该饭店2018年的营业额数据,使用matplotlib生成饼状图显示2018年4个季度的营业额分布情况
三、数据挖掘算法及其在Python中的应用(上)
1、大数据与数据挖掘入门
1.1大数据的定义
1.2大数据的“4V”特征
1.2.1 体量大
1.2.2 处理速度快
1.2.3 种类多
1.2.4 价值密度低
1.3数据挖掘流程与数据挖掘“金字塔模型”
1.3.1 数据挖掘“金字塔模型”
1.3.2 数据挖掘的流程
1.3.3 描述性数据挖掘
1.3.4 预测性数据挖掘
2、数据挖掘算法介绍
2.1 分类
2.1.1 分类分析的定义与目标
2.1.2分类分析的评价标准
2.1.3 分类分析的经典算法举例:支持向量机(SVM),人工神经网络,决策树分类,基于规则分类,**近邻分类,朴素贝叶斯分类器。
2.2 聚类
2.2.1 聚类分析的定义与目标
2.2.2聚类分析的评价标准
2.2.3 聚类分析的经典算法举例:k-means,层次聚类,SOM聚类方法,FCM聚类方法。
2.3回归
2.3.1回归分析的定义与目标
2.3.2回归分析的评价标准
2.3.3回归分析的经典算法举例:线性回归,逻辑回归,多项式回归,逐步回归,岭回归。
2.4 关联
2.4.1关联分析的定义与目标
2.4.2关联分析的评价标准
2.4.3关联分析的经典算法
3、数据挖掘中的分类算法——决策树
3.1 决策树的原理
3.2 决策树在运营商智慧运营中的应用
3.3 C4.5决策树算法理论
3.4 C4.5算法在Python中的实操
3.5 CRT决策树算法理论
3.6 CRT决策树算法在Python中的实操
3.7 决策树算法在Python中的比较以及综合应用案例
4、数据挖掘中的分类算法——kNN
4.1 kNN算法的原理
4.2 kNN算法的复杂度分析
4.3 kNN算法在Python中的实操
4.4 多种分类算法在Python中的综合应用案例
5、数据挖掘中的聚类算法——K-means
5.1 K-means算法的原理
5.2 K-means在Python中的综合应用案例
5.3 其他聚类算法展示
6、实操案例——用决策树算法进行客户流失预警
四、数据挖掘算法及其在Python中的应用(下)
1、数据挖掘中的回归算法——多元线性回归
1.1 回归分析的步骤
1.2 回归分析的适用场景
1.3 多元线性回归的算法原理
1.4 多元线性回归算法在Python中的综合应用案例
2、数据挖掘中的回归算法——关联分析
2.1 关联分析的原理
2.2 关联分析的适用场景
2.3 关联分析在数据挖掘中的经典案例举例:购物篮数据分析
4、数据挖掘算法的评价标准
4.1 ROC曲线
4.1.2 ROC曲线的原理
4.1.3 ROC曲线的构建方法
4.1.4 ROC曲线在Python中的实现
4.2 AUC
4.2.1 AUC值的原理及意义
4.2.2 AUC值在Python中的实现
4.2.3 使用AUC评价并比较多种分类算法
5、基于Python的数据挖掘建模实操案例
5.1 案例背景与意义介绍
5.2 在Python中进行数据采集
5.3 在Python中进行数据预处理
5.4 在Python中使用多种算法进行分析
5.5 在Python中进行算法评价
5.6 模型比较与算法选型
5.7 在Python中进行模型的落地应用
五、 Python与网络爬虫
1、网络爬虫简介
1.1 网络爬虫何时有用
1.2 网络爬虫是否合法
1.3 背景调研
1.3.1 检查robots.txt
1.3.2 检查网站地图
1.3.3 估算网站大小
1.3.4 识别网站所用技术
1.3.5 寻找网站所有者
1.4 编写**个网络爬虫
1.4.1 下载网页
1.4.2 网站地图爬虫
1.4.3 ID遍历爬虫
1.4.4 链接爬虫
2、数据抓取
2.1 分析网页
2.2 三种网页抓取方法
2.2.1 正则表达式
2.2.2 Beautiful Soup
2.2.3 Lxml
2.2.4 性能对比
2.2.6 为链接爬虫添加抓取回调
3、实战演练:抓取互联网数据
""