SSB蓄电池基于分布式对决Q学习与电池约束的5G网络设备间路径发现优化
2026-03-18 14:12:22
摘要
设备间直接通信(D2D)是第五代(5G)网络降低时延和分流基站负载的关键技术,但其效能面临两个长期挑战:动态环境下最优多跳路由的寻径问题与设备电池续航的平衡问题。现有路由方案往往顾此失彼,导致路径效率低下或设备过早断电。本文提出一种分布式双Q学习(2-DQ)算法,该算法将动作价值(Q)函数分解为状态价值与动作优势项,并强制设定30%的最低电量阈值。大量模拟实验表明:相较于标准D2D和单双Q学习方法,2-DQ在路径效率上提升23%,在密集异构网络场景下的适应性提高19%,能量优化效果增强17%。此外,该算法在城市、乡村及工业测试场景中均能保持设备电量高于运行阈值。这些结果表明,2-DQ框架具备可扩展性和能量感知特性,适用于下一代5G部署中的实时D2D路径选择。
引言
第五代(5G)网络的发展为增强无线通信系统提供了诸多机遇,同时也带来了重大挑战。其中一个关键挑战在于如何有效发现设备到设备(D2D)通信路径,这能显著降低延迟并提高吞吐量,从而改善网络性能[1][2]。D2D通信使得移动设备(如智能手机、平板电脑、物联网设备)无需通过基站或核心网络进行流量路由,即可实现彼此间的直接通信。这降低了延迟,使得自动驾驶和增强现实等实时应用能够实现更快的数据传输。通过频率复用,D2D通信提高了带宽利用率,使网络更加高效[3][4][5]。同时其还增加了网络容量,减轻了基站负载(Load),从而提升网络可靠性。此外,D2D技术通过支持节能的短距离连接,有助于延长设备电池续航时间(Save)。
优化5G网络中的D2D路径发现至关重要,尤其在设备电池寿命与处理能力受限的场景下[6]。为降低能耗并延长电池续航,必须确保高效执行路径发现以选择最佳通信路径[7]。欠优化的路径会导致干扰加剧、时延增加及电池电量快速耗尽。通过发现最优路径,D2D通信可有效分流基站流量,从而提升整体网络性能。此外,高效的路径发现机制支持设备可持续性,使设备无需频繁充电即可延长运行时间。尽管该领域已取得进展,现有方法仍难以应对5G网络环境中固有的不确定性与非线性特征。更为关键的是,多数传统算法(如通过切换降低干扰的[8]方案)未能充分解决路径选择优化与设备电池寿命维护之间的Trade问题——这一现实应用中的核心约束[9]。
在本研究中,我们通过提出一种基于分布式对决Q学习(2-DQ)算法的新方法来解决这些不足。该方法不仅提升了Q学习的稳定性和准确性,还引入了电池寿命限制级概念以确保实际适用性。通过结合分布式Q学习与对决Q学习的优势,所提出的方法能在平衡网络性能与设备可持续性的同时,对潜在奖励进行精细化评估。该算法创新性地引入电池寿命考量,其能力体现在能明确处理D2D路径发现过程中的设备能量限制级问题——这是现实5G网络中关键却常被忽视的因素。与传统方法不同,本方案在分布式对决Q学习框架内整合了电池寿命上限,确保在保持设备运行寿命的前提下选择最优路径。这项创新实现了高效通信与设备可持续性之间的平衡,使得该算法在资源受限和能量敏感环境中具有高度实用性。本工作的主要贡献如下:
- • 创新算法设计:开发专为D2D路径发现设计的分布式对决Q学习算法,该算法能有效分离状态价值函数与动作优势函数的估计。
- • 电池寿命约束的整合:引入电池寿命上限机制,确保D2D设备在其实际能量限制范围内运行,该特性在现有模型中常被忽视。
- • 应对网络不确定性:利用概率分布管理5G网络环境的非线性与随机特性。
- • 卓越性能表现:通过大量模拟实验证明,相较传统算法在稳定性、效率及准确性方面均有提升。
- • 实际适用性:验证所提方法在解决现实挑战(如优化D2D通信路径的同时保持设备约束条件)方面的有效性。