2022年 11月 9日

python爬虫中处理超时的三种方法

一、 使用timeout()

首先是:为防止服务器不能及时响应,大部分发至外部服务器的请求都应该带着 timeout 参数。在默认情况下,除非显示指定了 timeout 值,requests 是不会自动进行超时处理的。如果没有 timeout,你的代码可能会挂起若干分钟甚至更长时间

其次是:连接超时指的是在你的客户端实现到远端机器端口的连接时(对应的是 connect() ),Request 会等待的秒数。一个很好的实践方法是把连接超时设为比 3 的倍数略大的一个数值,因为 TCP 数据包重传窗口 (TCP packet retransmission window) 的默认大小是 3。

在爬虫代理这一块我们经常会遇到请求超时的问题,代码就卡在哪里,不报错也没有requests请求的响应。

通常的处理是在requests.get()语句中加入timeout限制请求时间:

req = requests.get(url, headers=headers, proxies=proxies, timeout=5)
  • 1

如果发现设置timeout=5后长时间不响应问题依然存在,可以将timeout里的参数细化
作出如下修改后,问题就消失了:

req = requests.get(url, headers=headers, proxies=proxies, timeout=(3,7))
  • 1

以上方法在爬取视频的时候也适用,例子如下:

video = requests.get(video_url, headers=headers, timeout=20, verify=False).content
  • 1

二、通过func_timeout模块的@func_set_timeout()来实现

首先安装 pip install func_timeout

#_________________________________通过func_timeout装饰器来解决函数执行超时______________________________________________
from func_timeout import func_set_timeout
import func_timeout
@func_set_timeout(3)#设定函数超执行时间_
def task():
    print('hello world')
    time.sleep(5)
    return '执行成功_未超时'

if __name__ == '__main__':
    try:
        print(task())
    #若调用函数超时自动走异常(可在异常中写超时逻辑处理)
    except func_timeout.exceptions.FunctionTimedOut:
        print('执行函数超时')
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15

三、通过eventlet模块来实现

依旧是安装 pip install eventlet

eventlet.monkey_patch()  # 必须加这条代码
with eventlet.Timeout(20, False):
	time.sleep(21)
    print('语句正常执行')
    video = requests.get(video_url, headers=headers,verify=False).content
    with open('空格/' + str(s_code) + '.mp4', 'wb') as f:
        f.write(video)
 print('超时-------------------------------')
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8