本次实战参考了静觅的爬虫教程:http://cuiqingcai.com/993.html
下面只写一些码代码过程中遇到的问题
1 爬取到内容标签的处理,建立了一个处理标签的类,非常方便!
2 使用 re 模块的 findall方法,会遍历整个字符串,找到匹配的所有位置并以列表的形式返回。如果正则表达式没有分组,则列表的元素就是字符串;如果正则表达式内有分组,即有小括号,则列表的每一个元素仍然是列表,然后内部的元素才是字符串
3 使用re 模块的 search 方法会遍历字符串,找到正则表达式匹配的第一个位置,然后返回一个匹配对象,该对象中包含了匹配的位置和内容信息,可以通过group()方法获得匹配的字符串,但是group()默认为0组,即整个匹配的内容,而group(1)则返回匹配的1号组,即正则表达式内左数第一个括号内的内容
4 input 函数输入的内容均是字符串类型,而字符串类型的 0 表示True!!只有整数类型的0才会表示 False!
5 Windows 下的换行符为 '\r\n',所以写入文件时使用换行符 '\r\n', 而不是'\n'
整体代码如下: