拉勾-52讲轻松搞定网络爬虫

课程背景

大数据时代，数据已是各家企业立身之根本。如何保护自家数据？如何爬取别人家的数据？成为各家数据工程师的矛和盾，也让爬虫与反爬虫技术在这几年飞速发展。

很多有 Python 基础的人，都会选择先学习爬虫，让自己辛苦所学，得以实践。但确发现自己根本爬取不到对方软件的数据？

之所以这样，是因为反爬虫技术的进步，让你所学习的爬虫技术，已经落后于这个时代。用“上个时代”的爬虫技术爬取“大数据时代”的数据，必然难有成果。

专栏解读

所以，这个专栏除了为你讲解爬虫技术的必备知识点，还会结合当下的技术情况为你讲解「JavaScript 逆向」「App 逆向解密」「深度学习识别验证码」「网页的智能解析」「异步爬取」「反爬取」等最新的爬虫技术。

专栏从基础知识点讲起，通过样例代码，帮你搞懂基本用法和原理。每个知识点会结合实际案例，手把手带你进行爬虫实操，加深你对爬虫技术的理解。

学了这个专栏之后，你能轻松过掌握当下优秀爬虫所用到的必备技术，应对绝大多数网站的爬取。

课程目录

开篇词

开篇词：如何高效学好网络爬虫

模块一：爬虫基础原理

第01讲：必知必会，掌握 HTTP 基本原理

第02讲：夯实根基，Web 网页基础

第03讲：原理探究，了解爬虫的基本原理

第04讲：基础探究，Session 与 Cookies

第05讲：多路加速，了解多线程基本原理

第06讲：多路加速，了解多进程基本原理

模块二：爬虫基本库的使用

第07讲：入门首选，Requests 库的基本使用

第08讲：解析无所不能的正则表达式

第09讲：爬虫解析利器 PyQuery 的使用

第10讲：高效存储 MongoDB 的用法

第11讲：Reqeusts PyQuery PyMongo 基本案例实战

模块三：多种形式的爬取方法

第12讲：Ajax 的原理和解析

第13讲：Ajax 爬取案例实战

第14讲：Selenium 的基本使用

第15讲：Selenium 爬取实战

第16讲：异步爬虫的原理和解析

第17讲：aiohttp 异步爬虫实战

第18讲：爬虫神器 Pyppeteer 的使用

第19讲：Pyppeteer 爬取实战

模块四：反爬虫的应对方法

第20讲：代理的基本原理和用法

第21讲：提高利用效率，代理池的搭建和使用

第22讲：验证码反爬虫的基本原理

第23讲：利用资源，学会用打码平台处理验证码

第24讲：更智能的深度学习处理验证码

第25讲：你有权限吗？解析模拟登录基本原理

第26讲：模拟登录爬取实战案例

第27讲：令人抓狂的 JavaScript 混淆技术

第28讲：JavaScript 逆向爬取实战（上）

第29讲：JavaScript 逆向爬取实战（下）

模块五：App 爬虫

第30讲：App 爬虫是怎么着情况？

第31讲：抓包利器 Charles 的使用

第32讲：实时处理利器 mitmproxy 的使用

第33讲：可见即可爬，Appium 的使用

第34讲：更好用的自动化工具 airtest 的使用

第35讲：无所不能的 Xposed 的使用

第36讲：App 逆向的常见技巧

模块六：智能化解析

第37讲：智能化解析是怎样的技术？

第38讲：智能化解析解析工具使用

第39讲：页面智能解析算法原理解析

第40讲：跟我来一起实现智能化解析算法吧

模块七：Scrapy 框架的使用

第41讲：无人不知的 Scrapy 爬虫框架的介绍

第42讲：初窥门路 Scrapy 的基本使用

第43讲：灵活好用的 Spider 的用法

第44讲：功能强大的 Middleware 的用法

第45讲：哪都能存，Item Pipeline 的用法

第46讲：遇到动态页面怎么办？详解渲染页面爬取

第47讲：大幅提速，分布式爬虫理念

第48讲：分布式利器 Scrapy-Redis 原理

第49讲：实战上手，Scrapy-Redis 分布式实现

第50讲：Scrapy 部署不用愁，Scrapyd 的原理和使用

第51讲：容器化技术也得会，Scrapy 对接 Docker

第52讲：Scrapy 对接 Kubernetes 并实现定时爬取

结束语

结束语：从爬虫小白到高手的必经之路

猜你喜欢

评论0