2022年 11月 9日

Python之如何获取网络数据

用Python获取数据

抓取
urllib内建模块
-urllib.request
Requests第三方库(中小型爬虫开发)
Requests官网
基本方法requests.get() #请求获取指定URL位置的资源,对应HTTP协议的GET方法

帮大家把简单的使用方法复制过来

>>> r = requests.get('https://api.github.com/user', auth=('user', 'pass'))
>>> r.status_code
200
>>> r.headers['content-type']
'application/json; charset=utf8'
>>> r.encoding
'utf-8'
>>> r.text  #自动推测文本编码并进行解码
u'{"type":"User"...'
>>> r.json()#内置json解码器
{u'private_gists': 419, u'total_private_repos': 77, ...}
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11

Scrapy框架(大型的开源爬虫框架)

解析
BeautifulSoup库
BeautifulSoup是一个可以从HTML或XML文件中提取数据的Python库
BeautifulSoup官方网站

re模块
re正则表达式模块进行各类正则表达式处理
参考网站

第三方API进行抓取和解析