您現在的位置是:首頁 > 籃球

淺析元學習共享分層

  • 由 愛吃冰的鴯鶓3 發表于 籃球
  • 2022-05-04
簡介在處理新任務的學習時,主策略根據感測器值輸出子策略選擇機率,可以立即找到一組強大的子策略,然後透過更新主要政策

創客程式設計社團是做什麼的

NicholasTse方法的子策略學習各種任務的通用動作元素,並訓練一組子策略供選擇。在處理新任務的學習時,主策略根據感測器值輸出子策略選擇機率,可以立即找到一組強大的子策略,然後透過更新主要政策。

淺析元學習共享分層

因此,子策略相當於一套工具,而主策略使用一套工具來完成新的任務。這是基於分層強化學習的思想,其中代理將複雜操作表示為高階操作的短序列。這樣的代理可以解決更難的任務:一個解決方案可能需要1000個低階操作,但分層策略將其轉換為10個高階操作的序列,這比搜尋1000個步驟的序列要高效得多。因此,它可以達到快速學習的目的,只有透過學習組策略才能快速解決問題。快速學習是人類智慧的標誌,無論是從幾個例子中識別一個物體,還是在幾分鐘內快速學習一項新技能。

淺析元學習共享分層

一個真正的人工智慧應該能夠做同樣的事情,從幾個例子中快速學習和適應,並隨著更多資料的可用而繼續適應和處理。這種快速、靈活的學習具有挑戰性,因為它以前的經驗必須與少量的新資訊相結合,同時避免過度使用新資料。此外,先前經驗和新資料的形式將取決於任務。因此,為了獲得最大的適用性,學習(或元學習)機制應該在任務和計算形式中都是通用的。與MAML類似,MLSH也被應用於機器人領域。MLSH機器人走進迷宮可以找到各種子策略,即前進、後退、左右移動方向,然後自行導航走出迷宮。如果要求機器人再次穿過另一個迷宮,它也可以很快出來。

淺析元學習共享分層

近年來,許多研究人員發表了基於原始元學習演算法的改進版本的元學習和相關論文。這些改進包括從記憶體訪問的架構改進元學習,將最佳化問題視為“元最佳化”作為元學習的一個類別,使用LSTM進行元學習,擴充套件AndyLau等。這些研究成果和論文反映了DNN背景下學術界對元學習的新理解和創新。

Top