2022年 11月 8日

一篇文章教你如何使用python爬虫

一、什么是爬虫

 通过编写程序,模拟浏览器上网,然后让其去互联网上抓取数据的过程。

1、爬虫带来的风险可以体现在如下2方面:

  •  爬虫干扰了被访问网站的正常运营
  • 爬虫抓取了收到法律保护的特定类型的数据或信息

2、爬虫在使用场景中的分类

  • 通用爬虫: 抓取系统重要组成部分。抓取的是一整张页面数据。
  •  聚焦爬虫: 是建立在通用爬虫的基础之上。抓取的是页面中特定的局部内容。
  •  增量式爬虫: 检测网站中数据更新的情况。只会抓取网站中最新更新出来的数据。

3、反爬机制

  • 门户网站,可以通过制定相应的策略或者技术手段,防止爬虫程序进行网站数据的爬取。

4、反反爬策略

  • 爬虫程序可以通过制定相关的策略或者技术手段,破解门户网站中具备的反爬机制,从而可以获取门户网站中

二、python爬虫request模块

1、requests模块

  • python中原生的一款基于网络请求的模块,功能非常强大,简单便捷,效率极高。 作用:模拟浏览器发请求。

2、request模块如何使用

  • 指定url
  • UA伪装
  • 请求参数的处理
  •  发起请求
  •  获取响应数据
  • 持久化存储

三、爬虫实战

需求:爬取肯德基餐厅查询http://www.kfc.com.cn/kfccda/index.aspx中指定地点的餐厅数据

  1. import requests
  2. import json
  3. # 爬取kfc门店地址
  4. # 爬取url地址
  5. url = 'http://www.kfc.com.cn/kfccda/ashx/GetStoreList.ashx?op=keyword'
  6. # UA伪装
  7. header = {
  8. 'User-Agent' :'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/94.0.4606.81 Safari/537.36'
  9. }
  10. json_list = []
  11. # 输入参数
  12. kw = input("enter the keywords:")
  13. # 组装参数
  14. for page in range(1,7):
  15. page = str(page)
  16. para = {
  17. 'cname': '',
  18. 'pid': '',
  19. 'keyword': kw,
  20. 'pageIndex': page,
  21. 'pageSize': '10'
  22. }
  23. # 发送post请求
  24. obj = requests.post(url=url,params=para,headers=header).json()
  25. json_list.append(obj)
  26. #持久化数据
  27. fileName = "address.json"
  28. with open(fileName,'w',encoding="utf-8") as fp:
  29. json.dump(json_list,fp=fp,ensure_ascii=False)
  30. print("over")

代码详细地址为:kfc爬取门店代码