python爬虫——入门

30 阅读 0 评论 0 点赞

一、概念

万维网之所以叫做网，是因为通过点击超链接或者进入URL，我们可以访问任何网络资源，从一个网页跳转到另一个网页，所有的相关资源连接在一起，就形成了一个网。

而爬虫呢，听名字就让人想起来一个黏糊糊的蠕虫或者蜘蛛等，实际上，爬虫本质上即使一个程序蜘蛛，按照一定的规则，自动沿着这张网抓取上面的信息。

用处：

python直接去官网下载即可，python编辑器我这里用的是pycharm软件。

安装教程直接百度即可。

我们都听说过，爬虫学的好，牢饭吃的早。那么我们应该怎么正确利用爬虫技术呢？哪些事情是我们能做的，哪些是我们不能做的。

那接下来我们就来聊一聊爬虫的流程大概是什么样子的！

获取网页内容：我们会通过代码给一个网站服务器发送请求，它会返回给我们网页上的内容。在我们平时用浏览器访问网页内容时，本质上也是给网站服务器发送一个请求，服务器返回网页内容。（只不过，浏览器还会进行一个额外的步骤，就是把内容渲染成直观优美的页面给用户进行展现，而用程序获得的内容更加原始）
解析网页内容：在上一个步骤，我们可以获取整个网页的内容，那太多太复杂了，而我们其实根本不想要看到这么多信息，这个时候我们需要进行筛选。比如去tb买东西，我们可能只关注商品种类和价格，对于活动信息或者用户评价等内容不感兴趣。所以需要对内容进行解析，把想要的数据提取出来。
储存或分析数据：取决于具体需求。比如你一开始是为了收集数据集，那这一步骤可能就是把数据存储进数据库；如果你一开始是为了分析数据趋势，那这一步骤可能就是把数据做成可视化图表；如果你一开始是为了做舆情监控，这一步骤可能就是用AI做文本情绪分析。

爬虫大概的流程讲完了，那么我们来讲讲怎么避免吃牢饭！！！

为了能够成为社会主义好青年，请你务必遵守一些规则：

除了以上红线不能跨过以外，还有一些事情是需要我们注意的。

爬虫的请求数量和频率不能过高，否则可能无异于DDos攻击。（DDos攻击就是通过给服务器发送海量高频的请求，让网站资源被耗尽，导致其无法服务其他正常用户）
如果网站明显做出了反爬限制，比如有些内容要登陆后才可查看，或是有验证码等限制机器的机制，就不要去强行突破了。
你可以通过查看网站的robots.txt文件了解可爬取的网页路径范围,这个文件会知名哪些网页允许被爬取，哪些不允许被爬取，有些还会专门列出针对搜索引擎爬虫的许可范围。

学什么，根据具体需求而异。

本站资源均来自互联网，仅供研究学习，禁止违法使用和商用，产生法律纠纷本站概不负责！如果侵犯了您的权益请与我们联系！

点赞(0) 打赏

暂无评论