意大利博洛尼亚大学深度神经网络架构优化研究突破

一项基于统计热力学的数学理论突破,使博洛尼亚大学与罗马第三大学INFN研究所的科学家团队,显著提升了深度神经网络的效率与鲁棒性——这两者正是现代人工智能系统的核心所在。

该研究成果已发表于《npj Artificial Intelligence》期刊,为构建更轻量化、更可持续的AI模型铺平了道路,有助于缓解人工智能日益增长的能源需求。

“正如19世纪的早期热机需要优化才能发挥最佳性能一样,深度神经网络同样需要精细调节。”博洛尼亚大学数学系教授、论文合著者皮耶尔路易吉·孔图奇解释道,“在这项工作中,我们将一项数学定理引入人工智能的实际应用,从而理解学习过程中的能量如何在网络结构中耗散,又如何将其重新有效利用。”

神经网络通过由互联节点组成的多层结构处理数据,这一计算模型仿照了人脑的组织方式。基于此结构,研究团队应用了一套数学形式体系,得以定义网络的“局部温度”,从而识别出信息流动最不稳定、最易混乱的“热点”区域,以及相对有序、稳定的“冷点”区域。

通过这一数学诊断,研究者能够对节点进行优化重分配:将节点从信息易分散的热区迁移至冷区。这一架构调整虽看似简单,却由严格的理论原则指导,在保持模型准确性的同时,显著增强了其鲁棒性。

“这种数学视角不仅提升了模型的稳定性,也为神经网络的设计提供了更合理的路径。”该研究的共同作者、博洛尼亚大学研究助理詹卢卡·曼赞指出,“架构优化对降低人工智能的能耗至关重要,而数学正为我们提供了引导这一进程的有力工具。”

这项题为《深度神经网络中的架构优化:一种理论启发方法的验证》的研究,由皮耶尔路易吉·孔图奇、詹卢卡·曼赞(博洛尼亚大学),以及保罗·布兰基尼、萨夏·科尔梅尼耶(罗马第三大学INFN研究所)共同完成。