当前位置: 首页 > 项目管理 > 项目综合 > Python语言基础
【课程背景】
Python语言是当前**火的语言之一,易于使用,学习曲线低。Python具备丰富成熟的网络库和数据处理库,可以快速的进行网络信息爬取、数据初步处理,并可以应对复杂的网络环境、网站环境。 本课程系统讲述Python的网页内容获取库、网页结构和相关协议、HTML内容解析、异步处理以及复杂网络环境数据获取工具。**本课程,可以初步掌握使用Python进行网络信息爬取的能力。课程结合案例和练习,注重知识的掌握和使用,重点培养学员的实操能力。
【课程收益】
培训完结后,学员能够:
了解网页结构和相关协议
掌握Python网页内容获取库
掌握Python网页内容解析方法
掌握常用爬虫库
【课程对象】想学习Python爬虫编程,并具备Python基础编程能力人员
【课程时长】3天 (6小时/天)
【课程大纲】
单元
大纲
内容
单元一
绪论
爬虫介绍
爬虫应用
爬虫技术介绍
单元二
Python简单爬虫开发
使用Python获取网页源代码
多线程爬虫
爬虫常见搜索算法
阶段练习:百度页面爬取
单元三
高性能html解析
HTML介绍
正则表达式介绍
**正则表达式获取页面数据
XPATH介绍
**XPATH快速获取数据
Beautiful Soup4介绍和使用
阶段练习:招聘信息爬取
单元四
异步加载和请求
HTTP协议简介
网页结构简介
Ajax简介
异步加载
伪造请求头
阶段练习:获取视频网站评论
单元五
模拟登陆与验证码
网站登录原理介绍
模拟登陆
验证码机制
验证码处理
阶段练习:模拟网站登录操作
单元六
Scrapy爬虫框架
Scrapy介绍与安装
Scrapy的使用
Scrapy与数据库
Scrapy与Redis
Scrapy中间件
Scrapy爬虫部署
单元七
整体练习
根据实际情况设定一个实验课题
""