python-spider-project-list-Scott-Blog

1、Python100天：

项目地址

scrapy简介

django快速上手

首先，我们可以在命令行或者 PyCharm 的终端中通过下面的命令安装pymysql，如果需要接入 MySQL 8，还需要安装一个名为cryptography的三方库来支持 MySQL 8 的密码认证方式:

pip install pymysql cryptography

使用pymysql操作 MySQL 的步骤如下所示：

1）、创建连接。MySQL 服务器启动后，提供了基于 TCP （传输控制协议）的网络服务。我们可以通过pymysql模块的connect函数连接 MySQL 服务器。在调用connect函数时，需要指定主机（host）、端口（port）、用户名（user）、口令（password）、数据库（database）、字符集（charset）等参数，该函数会返回一个Connection对象。

2）、获取游标。连接 MySQL 服务器成功后，接下来要做的就是向数据库服务器发送 SQL 语句，MySQL 会执行接收到的 SQL 并将执行结果通过网络返回。要实现这项操作，需要先通过连接对象的cursor方法获取游标（Cursor）对象。

3）、发出 SQL。通过游标对象的execute方法，我们可以向数据库发出 SQL 语句。

4）、如果执行insert、delete或update操作，需要根据实际情况提交或回滚事务。因为创建连接时，默认开启了事务环境，在操作完成后，需要使用连接对象的commit或rollback方法，实现事务的提交或回滚，rollback方法通常会放在异常捕获代码块except中。如果执行select操作，需要通过游标对象抓取查询的结果，对应的方法有三个，分别是：fetchone、fetchmany和fetchall。其中fetchone方法会抓取到一条记录，并以元组或字典的方式返回；fetchmany和fetchall方法会抓取到多条记录，以嵌套元组或列表装字典的方式返回。

5）、关闭连接。在完成持久化操作后，请不要忘记关闭连接，释放外部资源。我们通常会在finally代码块中使用连接对象的close方法来关闭连接。

2、learn_python3_spider

包括浏览器抓包，手机APP抓包，如 fiddler、mitmproxy，各种爬虫涉及的模块的使用，如：requests、beautifulSoup、selenium、appium、scrapy等，以及IP代理，验证码识别，Mysql，MongoDB数据库的python使用，多线程多进程爬虫的使用，css 爬虫加密逆向破解，JS爬虫逆向，分布式爬虫，爬虫项目实战实例等

爬虫前，抓包

python爬虫库的使用

python爬虫反爬

websocket 爬虫

分布式爬虫

3、python-spider

Python3网络爬虫实战：淘宝、京东、网易云、B站、12306、抖音、笔趣阁、漫画小说下载、音乐电影下载等

抖音App视频下载

4、PythonSpiderNotes

Python入门网络爬虫之精华版

5、爬虫框架feapder

内置AirSpider、Spider、TaskSpider、BatchSpider四种爬虫解决不同场景的需求。且支持断点续爬、监控报警、浏览器渲染、海量数据去重等功能。更有功能强大的爬虫管理系统feaplat为其提供方便的部署及调度

6、awesome-spider

爬虫集合

贝壳网找房爬虫等

7、Python-Basic

scrapy爬虫框架入门

selenium基础操作

8、CrawlProject

从基础到js逆向，包含基础篇、自动化篇、进阶篇以及验证码篇。案例涵盖各大网站(xhs douyin weibo ins boss job，jd...)，你将会学到有关爬虫以及反爬虫、自动化和验证码的各方面知识

9、spider-admin-pro

spider-admin-pro 一个集爬虫Scrapy+Scrapyd爬虫项目查看和爬虫任务定时调度的可视化管理工具，SpiderAdmin的升级版

10、example-of-web-crawler

一些非常有趣的python爬虫例子,对新手比较友好,主要爬取淘宝、天猫、微信、微信读书、豆瓣、QQ等网站

11、从0开始学Python爬虫

python爬虫教程，带你从零到一，包含js逆向，selenium, tesseract OCR识别,mongodb的使用，以及scrapy框架

12、7天python爬虫

scrapy入门

连接mysql和redis

面向对象及启用多线程创建爬虫

13、python-spider

Python3网络爬虫实战总结：scrapy框架使用、ip代理、打码平台、linux命令、数据库操作、自己工作中写的little tools...

14、爬虫合集

收集各种免费的 Python 爬虫项目

15、POI(兴趣点)爬虫

Python兴趣点（POI）爬虫，通过百度地图API爬取指定城市兴趣点列表，包含其：坐标、名称、联系方式

16、web-spider

Python网络爬虫与信息提取-学习笔记

17、python登录模拟合集

python模拟登陆一些大型网站，还有一些简单的爬虫，希望对你们有所帮助

18、

requests,beautifulsoup基本使用

20、爬虫到如玉

requests和re的是使用：示例

selenium和scrapy：selenium入门 , base-scrapy-plus , base-scrapy

python操作主流数据库：mysql、mongo、redis

js逆向：逆向常见加密算法

21、python3爬虫实战

Python爬虫实战 - 模拟登陆各大网站包含但不限于：滑块验证、拼多多、美团、百度、bilibili、大众点评、淘宝

爬虫练习网

22、爬虫框架

Scrapy

scrapy官网：https://scrapy.org/

Selenium

官网：https://www.selenium.dev/

Selenium 是自动化测试工具。它支持各种浏览器，包括 Chrome，Safari，Firefox 等主流界面式浏览器，如果在这些浏览器里面安装一个 Selenium 的插件，可以方便地实现Web界面的测试. Selenium 支持浏览器驱动。Selenium支持多种语言开发，比如 Java，C，Ruby等等，PhantomJS 用来渲染解析JS，Selenium 用来驱动以及与 Python 的对接，Python 进行后期的处理

PySpider

PySpider 中文网：http://www.pyspider.cn

PySpider 官网：http://docs.pyspider.org

PySpider 演示：http://demo.pyspider.org

PySpider 源码：https://github.com/binux/pyspider

Crawley

Crawley可以高速爬取对应网站的内容，支持关系和非关系数据库，数据可以导出为JSON、XML等。

Portia

官网：https://portia.scrapinghub.com/

Portia是一个开源可视化爬虫工具，可让您在不需要任何编程知识的情况下爬取网站！简单地注释您感兴趣的页面，Portia将创建一个蜘蛛来从类似的页面提取数据。其主要特征是：

Portia是一款不需要任何编程知识就能爬取网页的爬虫框架，只要将相关信息填好之后，就可以爬取网站了。

基于 scrapy 内核

可视化爬取内容，不需要任何开发专业知识

动态匹配相同模板的内容

Beautiful Soup

Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Beautiful Soup会帮你节省数小时甚至数天的工作时间

Grab

官网：https://grablib.org/en/latest/

Grab是一个用于构建Web刮板的Python框架。借助Grab，您可以构建各种复杂的网页抓取工具，从简单的5行脚本到处理数百万个网页的复杂异步网站抓取工具。Grab提供一个API用于执行网络请求和处理接收到的内容，例如与HTML文档的DOM树进行交互

Cola

github地址：https://github.com/qinxuye/cola

Cola是一个分布式的爬虫框架，对于用户来说，只需编写几个特定的函数，而无需关注分布式运行的细节。任务会自动分配到多台机器上，整个过程对用户是透明的