lb_Mvp的个人空间 https://blog.eetop.cn/1185438 [收藏] [复制] [分享] [RSS]

空间首页 动态 记录 日志 相册 主题 分享 留言板 个人资料

日志

Python爬虫之爬取交大bbs上的鹊桥板块

已有 2252 次阅读| 2015-11-15 09:43 |个人分类:Python爬虫

开始的时候一直以为要登陆bbs才能爬取网页的内容,结果是被某浏览器坑了,其实是不用登陆的。
谷歌浏览器右键 “查看框架的源代码” 就可以看到网页源代码

实现的目标:
1 可以爬取bbs鹊桥板块多页的内容
2 只抓取发帖内容,不要回复内容
3 将爬取下的内容保存到指定的目录下(包括图片)。

实现的步骤:
1 获取鹊桥板块某一页的源代码(包含不同帖子的链接)
2 提取出帖子的链接,获取帖子页面的源代码
3 抓取发帖内容,删掉一贴标记部分,只留下纯文本
4 帖子有图片信息的话同时下载图片
5 将帖子文本信息和图片信息保存到指定的目录下,如果无图片,则不执行图片的保存操作

用到的模块:
1 os模块,用来创建目录
2 re模块,正则表达式。抓取网页内容也主要是用正则表达式实现的
3 requests模块,抓取网页源代码,下载图片

代码如下:
相应的解释都在代码里面的,希望能帮到其他学习的人。

点赞

评论 (0 个评论)

facelist

您需要登录后才可以评论 登录 | 注册

  • 关注TA
  • 加好友
  • 联系TA
  • 0

    周排名
  • 0

    月排名
  • 0

    总排名
  • 0

    关注
  • 1

    粉丝
  • 0

    好友
  • 3

    获赞
  • 2

    评论
  • 754

    访问数
关闭

站长推荐 上一条 /2 下一条


小黑屋| 手机版| 关于我们| 联系我们| 在线咨询| 隐私声明| EETOP 创芯网
( 京ICP备:10050787号 京公网安备:11010502037710 )

GMT+8, 2024-11-25 06:26 , Processed in 0.014301 second(s), 7 queries , Gzip On, Redis On.

eetop公众号 创芯大讲堂 创芯人才网
返回顶部