首页 理论教育 基于SMDP的单播拥塞控制建模

基于SMDP的单播拥塞控制建模

时间:2023-06-24 理论教育 版权反馈
【摘要】:考虑到SMDP在多约束条件下具有良好的寻优及实时决策能力,在应用式(6.6)与(6.7)的基础上,将单播拥塞控制过程视为SMDP过程,设计了基于SMDP的单播拥塞控制方法,以求解拥塞控制参数的调整策略。针对每个GOP选择相应的拥塞控制参数,各GOP的拥塞控制参数调整量的集合构成一个调整策略。

基于SMDP的单播拥塞控制建模

从上一节的分析可知,发送端应根据网络QoS 参数的变化,合理地调整视频数据的发送速度,在有效避免和解除网络拥塞的同时,保证接收端视频的播放质量。考虑到SMDP在多约束条件下具有良好的寻优及实时决策能力,在应用式(6.6)与(6.7)的基础上,将单播拥塞控制过程视为SMDP过程,设计了基于SMDP的单播拥塞控制方法,以求解拥塞控制参数的调整策略。总体上,本章提出的基于SMDP的单播拥塞控制方法具有如下优点: (1)充分利用了SMDP非时齐性质,在每一步的决策过程中,各种可选行动不一定具有相同的执行时间,各状态之间的时间间隔也并不始终保持一致,这更符合实际的视频数据传输过程;(2)由于各状态的持续时间并不局限于服从指数分布,SMDP能根据接收端的反馈得到更合理的拥塞控制参数调整策略,获得更小的视频平均失真,达到保证接收端视频质量的目的。

首先,为提高拥塞控制方法在QoS 时变的网络环境下的实时性,在各GOP开始传输时根据网络状态调整拥塞控制参数,直到该GOP所有数据传输完毕。在每一个决策点,即各GOP开始传输时按下式对拥塞控制参数进行调整

其中,cwnd 和ω分别表示拥塞窗口及慢启动阈值,f(Qrec)与g(Qrec)分别为传输两个相邻的GOP时所对应的cwnd 和ω的调整量(差值),Qrec为接收端的视频质量,可表示为

其次,为便于衡量各GOP失真的大小,定义ρi为第i个GOP经网络传输后在接收端的可解码度,即 θ-Ji,i-1},i=1,2…,L。

基于上述分析,以最小化视频平均失真为目标,以拥塞控制参数(cwnd,ω)为对象,以时长t=Clen/v将视频数据的传输过程离散化。针对每个GOP选择相应的拥塞控制参数,各GOP的拥塞控制参数调整量的集合构成一个调整策略。综合考虑SMDP各状态的集合、动作集、状态间的转移概率及各决策点之间的转移时间及收益,得到以五元组M 表示的SMDP模型,即M=(S,A,P(si,sj),

(1)状态集S。S 由半马尔科夫决策过程中所有可能的状态组成,各状态表示为si={Qrec,i,ρi,BoRi}∈S,其中i=1,2…,n。BoRi为传输链路的带宽占有率,可表示为

其中,Bwi为第i个时间段内传输链路的带宽,可根据下式进行递推:

式中,Ri表示在第i个时间段内的视频数据的发送速率; ti为第i个确认数据包(ACK)的到达时间; RTTi与Li分别为第i个数据包的往返时间和大小; δi表示调整因子,其功能为控制观测时间的大小。(www.xing528.com)

(2)动作集A。各动作可表示为ai={f(Qrec,i),g(Qrec,i)}∈A,则相应的调整策略为ξi(f(Qrec,i),g(Qrec,i))。

(3)状态转移概率表示系统执行动作ai后,从状态si转移到状态sj的概率,即事实上,在实际的拥塞控制过程中,任一状态中各元素的转换概率可视为相互独立[15],从而有

(4)状态转移时间Fj(si,ai)。Fj(si,ai)表示系统执行动作ai,从状态si转移到状态sj时所需的时间。其大小与链路可用带宽、编码码率及视频帧的大小等因素有关,可表示为Fj(si,ai)=v·b/R,b表示视频帧的大小。

(5)收益R(si,ai)。在上述定义的SMDP各元素基础之上,收益R(si,ai)采用下式进行计算:

本质上,R(si,ai)代表了处于状态si执行动作ai时的视频失真,SMDPCC方法通过迭代过程在各个决策点选择相应的拥塞控制参数调整策略,以最小化接收端视频的平均失真。此外,根据式(6.12)和(6.13)可知,给定接频质量的反馈Vq及网络服务质量,可计算出R(si,ai)的值。在此基础上,得到SMDP的值函数如下:

式中,π表示策略,γ表示折扣因子。可以看出,式(6.14)是一个迭代过程,其最后求解出的策略为

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈