勵志

勵志人生知識庫

umap原理

UMAP(Uniform Manifold Approximation and Projection)是一種非線性降維技術,主要用於數據降維和可視化。它基於流形學習技術,假設高維數據存在於一個低維流形上,通過在低維空間中找到數據的最佳表示來保留數據結構。UMAP的核心原理在於保持數據的局部鄰域結構和全局拓撲信息,同時均勻分布數據點。其工作機制如下:

鄰近度計算。對數據集中的每個數據點計算其相鄰點,這一步類似於K近鄰算法

局部結構建模。通過高維數據的局部結構來表示數據點,有助於捕獲數據的非線性特徵。

最佳化降維。將高維數據映射到低維空間,使得數據點在該空間中保持局部連通性和均勻度。

UMAP使用一種稱為Fuzzy-Simplicial Set的數學概念來描述數據點之間的連線關係,並使用聯合最近鄰圖的數據結構來表示數據點之間的距離。其最佳化目標是最小化一種稱為「cross-entropy」的損失函式,以減小高維和低維空間中數據點之間相似度的差異。與傳統方法如t-SNE相比,UMAP在保持數據結構的同時,提供了更快的計算速度和更好的全局結構保留能力。