日志

Python爬虫初识

已有 803 次阅读| 2015-9-16 14:45 |个人分类:Python爬虫

网络爬虫是当前互联网比较流行的概念，特别是对于搜索引擎、数据处理等，都需要我们从网上去“取”一些符合要求的数据。总的来说，一般的爬虫分为两个功能模块，也就是取数据和存数据。

取数据是爬虫的关键，特别对于一些具有“防御性”的情况，比如说网站需要登陆的情况，需要挂代理访问的情况，需要限制访问频率的情况，甚至需要输入验证码的情况，都需要在我们设计爬虫方法的时候考虑到。

存数据则是涉及到我们对数据的处理，是保存到数据库中，还是保存到本地文件中，或者临时保存在计算机内存中。

一般所谓的取网页内容，指的是通过程序（某种语言的程序代码，比如Python脚本语言）实现访问某个URL地址，然后获得其所返回的内容（HTML源码，Json格式的字符串等）。然后通过解析规则（比如说正则表达式等），分析出我们需要的数据并取出来。