日志

Python爬虫实战之爬取贴吧贴子

已有 4198 次阅读| 2015-10-15 08:46 |个人分类:Python爬虫

本次实战参考了静觅的爬虫教程：http://cuiqingcai.com/993.html

下面只写一些码代码过程中遇到的问题

1 爬取到内容标签的处理，建立了一个处理标签的类，非常方便！

2 使用 re 模块的 findall方法，会遍历整个字符串，找到匹配的所有位置并以列表的形式返回。如果正则表达式没有分组，则列表的元素就是字符串；如果正则表达式内有分组，即有小括号，则列表的每一个元素仍然是列表，然后内部的元素才是字符串

3 使用re 模块的 search 方法会遍历字符串，找到正则表达式匹配的第一个位置，然后返回一个匹配对象，该对象中包含了匹配的位置和内容信息，可以通过group()方法获得匹配的字符串，但是group()默认为0组，即整个匹配的内容，而group（1）则返回匹配的1号组，即正则表达式内左数第一个括号内的内容

4 input 函数输入的内容均是字符串类型，而字符串类型的 0 表示True！！只有整数类型的0才会表示 False！

5 Windows 下的换行符为 '\r\n'，所以写入文件时使用换行符 '\r\n'，而不是'\n'

整体代码如下：