Skip to content
由魔法生成的目录

M1 - 爬虫篇

介绍

爬虫是一类自动获取网页等内容的程序。爬虫程序可以自动访问网页,获取网页内容,然后对内容进行处理,比如提取有用的信息,或者对内容进行分析。爬虫程序可以自动化地获取大量的网页内容,这些内容可以用于软件开发、数据分析、机器学习、人工智能等领域。

举个例子,你想要把知乎某个感兴趣的答主的所有文章都下载收集起来,传统方式是手动打开每个文章,然后复制粘贴到其他地方或者挨个保存网页归档,但是这样做太麻烦了。通过编写爬虫程序,你就可以自动化这些重复且枯燥的过程,带来的成就感是很大的。爬虫可以用在很多地方,学会这个技能可以帮助你节约很多时间。

常见问题

爬虫程序可以用什么语言编写?

基本任何高级语言都可以编写爬虫,只要你可以访问网络即可。而影响选择的主要因素是它是否有比较易用的库来简化你的工作量。如发起 HTTP 请求、处理 HTML、序列化数据等。因此一般情况下,我们会更推荐选择 Python、JavaScript、Java、Go、Ruby 等语言来编写爬虫程序。

我需要了解哪些相关知识?

爬虫通常通过抓取 HTML 或者 JSON 数据来获取网页内容,因此你需要了解 HTTP 协议、HTML 文档规范、JSON 数据格式等相关知识。说白了,爬虫就是使用命令式手段从原始的网页数据中匹配出你肉眼看到的内容,并进行处理和存储。

由三位创世大魔法使共同写成,作为世界树记忆被封存并藉由元素脉络传播至全宇宙。