为什么需要心跳检测?

正常的情况客户端断开连接会向服务端发送一个fin包,服务端收到fin包后得知客户端连接断开,则立刻触发onClose事件回调。

但是有些极端情况如客户端掉电、网络关闭、拔网线、路由故障等,这些极端情况客户端无法发送fin包给服务端,服务端便无法知道连接已经断开。如果客户端与服务端定时有心跳数据传输,则会比较及时的发现连接断开,触发onClose事件回调。

另外路由节点防火墙会关闭长时间不通讯的socket连接,导致socket长连接断开。所以需要客户端与服务端定时发送心跳数据保持连接不被断开。

心跳检测的原理是什么?

客户端定时每X秒(推荐小于60秒)向服务端发送特定数据(任意数据都可),服务端设定为X秒没有收到客户端心跳则认为客户端掉线,并关闭连接触发onClose回调。这样即通过心跳检测请求维持了连接(避免连接因长时间不活跃而被网关防火墙关闭),也能让服务端比较及时的知道客户端是否异常掉线。

GatewayWorker中如何配置心跳检测?

目前GatewayWorker支持两种心跳检测,服务端设定多少秒内没收到心跳关闭连接,同时也支持服务端定时向客户端发送心跳数据,推荐客户端发送心跳,也可以两种检测同时开启。

客户端定时发送心跳(推荐)

客户端定时向服务端发送心跳。服务端类似以下配置:

$gateway = new Gateway("Websocket://0.0.0.0:8585");

$gateway->pingInterval = 55;

$gateway->pingNotResponseLimit = 1;

$gateway->pingData = '';

以上配置含义是客户端连接 pingInterval*pingNotResponseLimit=55 秒内没有任何数据传输给服务端则服务端认为对应客户端已经掉线,服务端关闭连接并触发onClose回调。

由于心跳是周期性检测,实际执行onClose的时间一般会大于pingInterval*pingNotResponseLimit=55,误差在pingInterval内。
客户端的心跳周期应该要比服务端设置的$gateway->pingInterval=55小一些,例如客户端50秒发送一段数给服务端

服务端主动发送心跳

GatewayWorer支持服务端向客户端发送心跳检测,可以像下面这样设置。

$gateway = new Gateway("Websocket://0.0.0.0:8585");

$gateway->pingInterval = 55;

$gateway->pingNotResponseLimit = 0;

// 服务端定时向客户端发送的数据
$gateway->pingData = '{"type":"ping"}';

以上服务端会定时55秒给客户端发心跳数据{"type":"ping"},而客户端不需要定时向服务端发送心跳数据。

其中pingNotResponseLimit = 0代表服务端允许客户端不发送心跳,服务端不会因为客户端长时间没发送数据而断开连接。
如果pingNotResponseLimit = 1,则代表客户端必须定时发送数据给服务端,否则pingNotResponseLimit*pingInterval=55秒内没有任何数据发来则关闭对应连接,并触发onClose。

由于心跳是周期性检测,实际执行onClose的时间一般会大于pingInterval*pingNotResponseLimit=55,误差在pingInterval内。

说明:

Gateway::$pingInterval

心跳检测时间间隔 单位:秒。如果设置为0代表不做任何心跳检测。

Gateway::$pingNotResponseLimit

客户端连续$pingNotResponseLimit$pingInterval时间内不发送任何数据(包括但不限于心跳数据)则断开链接,并触发onClose。
如果设置为0代表客户端不用发送心跳数据,即通过TCP层面检测连接的连通性(极端情况至少10分钟才能检测到连接断开,甚至可能永远检测不到)

Gateway::$pingData

当需要服务端定时给客户端发送心跳数据时, $gateway->pingData设置为服务端要发送的心跳请求数据,心跳数据是任意的,只要客户端能识别即可。客户端收到心跳数据可以忽略不做任何处理。

注意:

当设置为服务端主动发送心跳时,心跳间隔并不是100%精准。当客户端连接成功后,服务端发来的第一个心跳的时间间隔可能要小于服务器设置的值。

当设置为服务端主动发送心跳时,如果客户端最近有发来数据,那么证明客户端存活,服务端会省略一个心跳,下个心跳大约1.5*$gateway->pingInterval秒后发送。

如果心跳是客户端发送,$gateway->pingNotResponseLimit最好大于0,这样可以及时检测到一些死连接(连接已经断开,但是服务端不知道)

断线重连(重要)

不管是客户端发送心跳还是服务端发送心跳,连接都有断开的可能。例如浏览器最小化js被暂停、浏览器切换到其它tab页面js被暂停、电脑进入睡眠等等、移动端切换网络、信号变弱、手机黑屏、手机应用切换到后台、路由故障、业务主动断开等。尤其是外网环境复杂,很多路由节点会清理1分钟内不活跃的连接,这也是为什么心跳间隔推荐小于1分钟的原因。

连接在外网环境很容易被断开,所以断线重连是长连接应用必须具备的功能(断线重连只能客户端做,服务端无法实现)。例如浏览器websocket需要监听onclose事件,当发生onclose时建立新的连接(为避免需崩可延建立连接)。更严格一点,服务端也应该定时发起心跳数据,并且客户端需要定时监测服务端的心跳数据是否超时,超过规定时间未收到服务端心跳数据应该认定连接已经断开,需要执行close关闭连接,并重新建立新的连接。

编辑于2024-03-13 17:37:33 完善本页 +发起讨论
赞助商
QQ交流群 865805921