勵志

勵志人生知識庫

mappo算法

MAPPO算法是一種專為多智慧型體環境設計的強化學習算法,全稱為Multi-Agent Proximal Policy Optimization。它是on-policy算法PPO的變體,旨在多智慧型體環境中尋找最優策略,以生成代理的最優動作。MAPPO採用經典的actor-critic架構,包括策略網路和價值網路,這兩個網路分別用於選擇動作和評估狀態的價值。MAPPO可以套用於集中訓練分散執行(CTDE)的框架下,也可以作為分散學習算法使用。在集中訓練分散執行的框架下,有一個集中的價值函式,而在分散學習算法中,每個代理都有自己的價值函式。MAPPO在多智慧型體環境下表現出與off-policy算法相似的採樣效率,並且在大多數場景下有著更好的表現。