中新網北京12月3日電 (記者 孫自法)國際著名學術期刊《自然》最新發表一篇計算機科學研究論文稱,一種人工智能控制器能讓平流層的氣球一連數周待在原地,這一研究結果代表深度強化學習向現實世界應用邁進了重要的一步,將提高全自動環境監測成為現實的可能性。
該論文指,填充氦氣的“超壓”氣球常被用來在高層大氣開展實驗,比如氣象監測,如果被風吹偏了航道,它們就要返回駐點。深度強化學習可以訓練人工智能系統進行決策,對于超壓氣球來說,這些決策包括采取哪些行動來保持它們的位置不變。
論文通訊作者、加拿大蒙特利爾谷歌研究院馬克·貝勒馬爾(Marc Bellemare)和同事訓練了一種人工智能控制器,這種控制器能根據風的歷史記錄、預報、局地風觀測和其他因素(如氦氣損失和電池疲勞),決定是否要移動氣球。研究者利用一種數據增強算法來解釋數據中的空白,他們將這種命名為StationSeeker的技術應用到分布在全球各地的Loon氣球上,包括一項在太平洋上空進行的為期39天的受控實驗。實驗顯示,受到StationSeeker控制的氣球能成功實現自主導航,一旦被吹偏航道,它們能比傳統控制器控制的氣球更快地回到駐點。
英國牛津大學斯科特·奧斯普瑞(Scott Osprey)在《自然》同時發表的“新聞與觀點”文章中表示,深度強化學習的應用此前已在受控環境(如電腦游戲)中得到演示,其受控環境擁有完整的數據集和明確定義的參數。但現實世界的可預測性更差,比如關于環境中風的數據就不完整,因而很難采取最優調整,讓氣球保持在原位。因此,馬克·貝勒馬爾和同事的研究成果代表了增強學習在現實世界應用的一次巨大進步。(完)