mappo算法 _勵志人生網

MAPPO算法是一種專為多智慧型體環境設計的強化學習算法，全稱為Multi-Agent Proximal Policy Optimization。它是on-policy算法PPO的變體，旨在多智慧型體環境中尋找最優策略，以生成代理的最優動作。MAPPO採用經典的actor-critic架構，包括策略網路和價值網路，這兩個網路分別用於選擇動作和評估狀態的價值。MAPPO可以套用於集中訓練分散執行（CTDE）的框架下，也可以作為分散學習算法使用。在集中訓練分散執行的框架下，有一個集中的價值函式，而在分散學習算法中，每個代理都有自己的價值函式。MAPPO在多智慧型體環境下表現出與off-policy算法相似的採樣效率，並且在大多數場景下有著更好的表現。