《用Python写网络爬虫》理查德・劳森

学无止境 · 发表于 2022-12-24 22:49

书名：用Python写网络爬虫
作者：理查德・劳森
分类：Python P爬虫
ISBN：9787115431790

内容简介

作为一种便捷地收集网上信息并从中抽取出可用信息的方式，网络爬虫技术变得越来越有用。使用Python这样的简单编程语言，你可以使用少量编程技能就可以爬取复杂的网站。

《用Python写网络爬虫》作为使用Python来爬取网络数据的杰出指南，讲解了从静态页面爬取数据的方法以及使用缓存来管理服务器负载的方法。此外，本书还介绍了如何使用AJAX URL和Firebug扩展来爬取数据，以及有关爬取技术的更多真相，比如使用浏览器渲染、管理cookie、通过提交表单从受验证码保护的复杂网站中抽取数据等。本书使用Scrapy创建了一个高级网络爬虫，并对一些真实的网站进行了爬取。

《用Python写网络爬虫》介绍了如下内容：

通过跟踪链接来爬取网站；

使用lxml从页面中抽取数据；

构建线程爬虫来并行爬取页面；

将下载的内容进行缓存，以降低带宽消耗；

解析依赖于JavaScript的网站；

与表单和会话进行交互；

解决受保护页面的验证码问题；

对AJAX调用进行逆向工程；

使用Scrapy创建高级爬虫。

本书读者对象

本书是为想要构建可靠的数据爬取解决方案的开发人员写作的，本书假定读者具有一定的Python编程经验。当然，具备其他编程语言开发经验的读者也可以阅读本书，并理解书中涉及的概念和原理。

作者简介

Richard Lawson来自澳大利亚，毕业于墨尔本大学计算机科学专业。毕业后，他创办了一家专注于网络爬虫的公司，为超过50个国家的业务提供远程工作。他精通于世界语，可以使用汉语和韩语对话，并且积极投身于开源软件。他目前在牛津大学攻读研究生学位，并利用业余时间研发自主无人机。

学无止境 · 发表于 2024-8-19 21:08

《用Python写网络爬虫》这本书是网络数据爬取领域的实用指南，作者理查德・劳森在书中不仅详细介绍了从静态页面抓取数据的基本方法，而且还深入讲解了使用缓存管理服务器负载、多线程和进程进行并发抓取以及动态页面内容抓取等高级技术。以下是对该书的一些精彩部分的点评：

1. 数据抓取技巧：书中介绍了从页面中抓取数据的三种方法，这些技巧是网络爬虫的基础，为读者提供了多种选择，以适应不同的数据抓取需求。

2. 缓存提取方法：提取缓存中数据的方法能有效管理服务器负载，这一技术在处理大规模数据抓取时显得尤为重要，有助于提高爬虫程序的效率和稳定性。

3. 并发抓取应用：使用多个线程和进程来进行并发抓取的章节，展示了如何提升爬虫的速度和性能，同时说明了如何在保证数据完整性的同时减少等待时间。

4. 动态内容处理：针对动态页面内容的抓取方法，解决了传统爬虫在面对JavaScript渲染内容时遇到的困难，使得获取动态生成的数据变得可能。

5. 表单交互处理：书中对与表单进行交互的详细讲解，进一步增强了爬虫的实用性，使读者能够处理包括登录、数据提交等在内的复杂交互场景。

6. 验证码问题解决：讲解如何处理页面中的验证码问题，这是网络爬虫设计中的一大挑战，提供的解决方案大大提高了爬虫的应对能力。

总之，《用Python写网络爬虫》这本书为读者呈现了一个全面的网络数据爬取的世界。通过具体的代码示例和技术讨论，它不仅帮助初学者建立起网络爬虫的基本概念，同时也为有一定经验的开发者提供了深化和拓展知识的机会。理查德・劳森的专业背景和实践经验，使得这本书成为无论是技术新手还是专业人士都值得一读的网络爬虫领域的著作。

《用Python写网络爬虫》 理查德・劳森

《用Python写网络爬虫》理查德・劳森