对于SMDP的求解,常用的有策略迭代、值迭代等基于动态规划的方法,但这些方法对所有状态计算其最优解,复杂度高,不能满足视频传输的实时性要求。尽管近些年也提出了一些实时性较强、适合在线计算的求解方法,但这些方法仍然在求解精度与实时性方面难以满足要求。对此,为提高SDMPCC方法的实时性,使之符合视频传输的实时性要求,进一步改进文献[16]中的基于在线学习的SMDP求解方法。首先定义如下形式的更新的状态—值函数C(ai,si):
其中,κi表示学习速度因子,取值为1/i。
在此基础上,得到SMDPCC方法的实现步骤如下。
(1)初始化C(ai,si)=0,i=0。
(2)初始化A,S,Udistortion =0 及C(ai,si)=0,t=0。
(3)执行Sprev=S,Aprev=A,并从接收端获得新的状态值。按式(6.16)计算C(ai-1,si-1),再按式ai=argmax C(ai,si)计算ai的值。然后计算: C(Aprev,Sprev)=κiC(Aprev,Sprev)+(1-κi)(Udistortion +γC(A,S))。(www.xing528.com)
(4)根据步骤(3)中计算出的动作ai,按式(6.8)调整拥塞控制参数cwnd 和ω,如t≤vb/R,则发送视频帧,并根据式(6.5)和(6.6)调整Udistortion的值,否则转向步骤(3)。最后执行i=i+1。
(5)判断视频数据是否发送完毕,如所有GOP发送完毕,则转向(6),否则转(3)。
(6)结束。
上述SMDPCC方法在执行过程中,并没有在最终的解计算出来后再对cwnd和ω进行调整,而是获得一个次优解后就返回一个行动ai,在此基础上完成GOP中所有视频帧的发送,其目的是保证视频传输的实时性。事实上,文献[6]已证明,该解一定会收敛至全局最优。此外,该方法的复杂度为,其实时性与有效性也在仿真实验中得到了验证。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。