lb_Mvp的个人空间 https://blog.eetop.cn/1185438 [收藏] [复制] [分享] [RSS]

空间首页 动态 记录 日志 相册 主题 分享 留言板 个人资料

日志

Python爬虫实战之爬取贴吧贴子

已有 4007 次阅读| 2015-10-15 08:46 |个人分类:Python爬虫

本次实战参考了静觅的爬虫教程:http://cuiqingcai.com/993.html

下面只写一些码代码过程中遇到的问题

1  爬取到内容标签的处理,建立了一个处理标签的类,非常方便!

2  使用 re 模块的 findall方法,会遍历整个字符串,找到匹配的所有位置并以列表的形式返回。如果正则表达式没有分组,则列表的元素就是字符串;如果正则表达式内有分组,即有小括号,则列表的每一个元素仍然是列表,然后内部的元素才是字符串

3  使用re 模块的 search 方法会遍历字符串,找到正则表达式匹配的第一个位置,然后返回一个匹配对象,该对象中包含了匹配的位置和内容信息,可以通过group()方法获得匹配的字符串,但是group()默认为0组,即整个匹配的内容,而group(1)则返回匹配的1号组,即正则表达式内左数第一个括号内的内容  

4  input 函数输入的内容均是字符串类型,而字符串类型的 0 表示True!!只有整数类型的0才会表示 False!

5  Windows 下的换行符为 '\r\n',所以写入文件时使用换行符 '\r\n', 而不是'\n'


整体代码如下:



点赞

评论 (0 个评论)

facelist

您需要登录后才可以评论 登录 | 注册

  • 关注TA
  • 加好友
  • 联系TA
  • 0

    周排名
  • 0

    月排名
  • 0

    总排名
  • 0

    关注
  • 1

    粉丝
  • 0

    好友
  • 3

    获赞
  • 2

    评论
  • 754

    访问数
关闭

站长推荐 上一条 /2 下一条


小黑屋| 手机版| 关于我们| 联系我们| 在线咨询| 隐私声明| EETOP 创芯网
( 京ICP备:10050787号 京公网安备:11010502037710 )

GMT+8, 2024-11-22 09:47 , Processed in 0.011315 second(s), 8 queries , Gzip On, Redis On.

eetop公众号 创芯大讲堂 创芯人才网
返回顶部