二、01 Python应用-网络爬虫简介

发布时间:2026/6/9 14:18:08
二、01 Python应用-网络爬虫简介
这篇网络爬虫简介主要介绍一下什么是网络爬虫不同的网页之间有什么区别又该针对性的如何操作预计学习15分钟。1.什么是网络爬虫网络爬虫自动爬取网页的内容。2.网页有哪些类型①静态网页在页面初始加载时就已经完成了数据的请求因此通过页面的捕捉就可以获取整个页面的内容②动态加载的网页在页面初始加载时会先获取一些框架数据之后通过用户的点击加载更多等操作或直接调用js来完成主体数据的加载这类网址在访问时需要注意主体内容的加载会有一点延迟3.不同类型页面的爬取①静态页面爬取简单可以获取整个html文本内容然后使用BeautifulSoup解析。import requests from bs4 import BeautifulSoup responserequests.get(http://www.ccgp-henan.gov.cn/henan/list2?pageNo1pageSize16gglx2bz0,timeout10) html_contentresponse.text soup BeautifulSoup(html_content, html.parser) print(soup.text)然而目前大部分网页都是动态加载数据。②动态页面爬取。有两种思路1通过开发者工具F12分析请求的网络地址以此找到请求主体数据的api(url)、请求方式get/post、请求头信息然后模拟请求获取的数据可使用json解析这类示例可以搜慕课爬取。2可以直接使用模拟浏览器的工具如selenium完成数据的爬取例子下节课讲。4.总结网页的爬取一定具体问题具体分析。有很多网上提供的爬取案例可能已经不能在正常使用这可能因为网站已经做了更多的反爬机制或者回收了api不要着急没事多试试。课后练习找几个网页分析网页的特点然后选择使用requests、selenium、Scrapy来尝试爬取。并切身体会它们之间的不同。