python爬虫循环导入MySql数据库-白红宇

强烈建议你试试无所不能的chatGPT，快点击我

python爬虫循环导入MySql数据库

阅读量：7282 次

发布时间：2019-06-30

本文共 1004 字，大约阅读时间需要 3 分钟。

1、开发环境

操作系统：win10 Python 版本：Python 3.5.2 MySQL：5.5.53

2、用到的模块

没有的话使用pip进行安装：pip install xxx xxx需要安装的模块

3、分析链接（博客官网：https://www.cnblogs.com/）

这里我们简单分析首页部分

经分析首页的分页系统链接变量是最后一个数字，所以可将访问的链接写成如下模式，这样执行的时候加个循环就能访问需要访问的所有页面内容

4、分析页面内容

整个页面咱们需要的信息是博主所发博客的信息，例如：

精确的的说是需要提取博客的标题，简介，发布时间以及博客链接

找到此页面按f12来审查元素

鼠标点下此箭头，然后放到页面内容上，找到咱们所查找的元素，在下面代码部分会出现相应的html：

鼠标右键，选择copy element,可将这块信息复制到文本，找个文本文档保存下来如下部分代码：

这个内容包含一个博客所有信息，接下来用正则提取我们需要的内容即可

5、正则表达式

title= re.compile('<a class="titlelnk.*?>(.*?)</a>',re.S)

title1= re.findall(title,html)

html是整个网页所有代码文档，这两行代码就将这个网页里面所有博客标题存入title1列表里面

其中<a class="titlelnk.*?>(.*?)</a>是匹配到所有class为titlelnk的a标签，(.*?)是咱们提取的内容

6、链接数据库

db = pymysql.connect("127.0.0.1","root","root","crawler",charset="utf8")#打开数据链接，

pymysql.connect()里面前四个参数我就不多说了，charset="utf8"这个参数可省只是确保编码正确，不然有些环境下无法插入数据

cursor cursor = db.cursor()# 使用 cursor() 方法创建一个游标对象

7、MYSQL插入语句

8、整理代码

原理、代码都在这个，想提取所要内容，分析网站即可，当然并不是所有网站都能爬，特殊网站具有反爬措施，需要学习更多知识(访问频率控制，代理IP池等等)

转载于:https://www.cnblogs.com/chu03/p/7819464.html

你可能感兴趣的文章

数论部分第一节：素数与素性测试【详解】

信息学奥赛一本通算法（C++版）基础算法：高精度计算

js获取页面宽高大小

6.2 中间件-middleware

我的第一个游戏FoodieThebug完成之后的心得体会 -子龙山人

stretchableImageWithLeftCapWidth:topCapHeight:函数详解

hibernate3整合spring2时hibernate即用注解又用配置文件情况时spring配置文件的配置写法...

socket编程基础知识

Annotation实战【自定义AbstractProcessor】

实现自适应屏幕宽高度、超出弹出滚动条

进程和线程关系与区别

树链剖分总结

Ubuntu 在Update以后任然出现找不到安装包问题解决方案

制作win10 usb 启动盘

log4net使用简介

Angular 4.0从入门到实战

性能测试--siege

DNS原理和CentOS7上bind域名服务器配置详解

从键盘输入一个班5个学生的分数，求和并输出

喝酒易醉，品茶养心，人生如梦，品茶悟道，何以解忧？唯有杜康！-- 愿君每日到此一游！

当前时间: 2025-02-15 04:51:27 当前IP: 18.188.27.24 联系邮箱:javaeecc@qq.com Copyright © 2020 - 2022 baihongyu.com 京ICP备2021015314号-2

强烈建议你试试无所不能的CHAT-GPT，快点击我

强烈建议你试试无所不能的CHAT-GPT，快点击我