日志

Python爬虫之爬取交大bbs上的鹊桥板块

已有 2544 次阅读| 2015-11-15 09:43 |个人分类:Python爬虫

开始的时候一直以为要登陆bbs才能爬取网页的内容，结果是被某浏览器坑了，其实是不用登陆的。

谷歌浏览器右键 “查看框架的源代码” 就可以看到网页源代码

实现的目标：

1 可以爬取bbs鹊桥板块多页的内容

2 只抓取发帖内容，不要回复内容

3 将爬取下的内容保存到指定的目录下（包括图片）。

实现的步骤：

1 获取鹊桥板块某一页的源代码（包含不同帖子的链接）

2 提取出帖子的链接，获取帖子页面的源代码

3 抓取发帖内容，删掉一贴标记部分，只留下纯文本

4 帖子有图片信息的话同时下载图片

5 将帖子文本信息和图片信息保存到指定的目录下，如果无图片，则不执行图片的保存操作

用到的模块：

1 os模块，用来创建目录

2 re模块，正则表达式。抓取网页内容也主要是用正则表达式实现的

3 requests模块，抓取网页源代码，下载图片

代码如下：

相应的解释都在代码里面的，希望能帮到其他学习的人。