开始的时候一直以为要登陆bbs才能爬取网页的内容,结果是被某浏览器坑了,其实是不用登陆的。
谷歌浏览器右键 “查看框架的源代码” 就可以看到网页源代码
实现的目标:
1 可以爬取bbs鹊桥板块多页的内容
2 只抓取发帖内容,不要回复内容
3 将爬取下的内容保存到指定的目录下(包括图片)。
实现的步骤:
1 获取鹊桥板块某一页的源代码(包含不同帖子的链接)
2 提取出帖子的链接,获取帖子页面的源代码
3 抓取发帖内容,删掉一贴标记部分,只留下纯文本
4 帖子有图片信息的话同时下载图片
5 将帖子文本信息和图片信息保存到指定的目录下,如果无图片,则不执行图片的保存操作
用到的模块:
1 os模块,用来创建目录
2 re模块,正则表达式。抓取网页内容也主要是用正则表达式实现的
3 requests模块,抓取网页源代码,下载图片
代码如下:
相应的解释都在代码里面的,希望能帮到其他学习的人。