bge模型 _勵志人生網

BGE模型，全稱為BAAI General Embedding，是由北京智源人工智慧研究院提出的一種通用語義向量模型。自2023年8月發布以來，智源團隊不斷更新和擴展BGE系列模型，包括中英文模型BGE v1.0、v1.5以及多語言模型BGE-M3。這些模型在全球範圍內下載量超過1500萬，位於國內開源AI模型的首位。BGE-M3模型在Hugging Face熱門模型中排名前三，其代碼倉庫在Github上也位於熱門項目前10。BGE系列模型在文本檢索和排序方面表現出色，特別是在混合檢索能力方面，通過融入visual token，實現了「文本+圖片」的混合檢索能力。

BGE模型的訓練過程包括三個階段：

在通用文本上進行預訓練；

在通用文本上使用無標籤數據進行微調；

在特定任務上使用有標籤數據進行微調。

在預訓練階段，BGE採用RetroMAE模型架構，這是一種非對稱的encoder-decoder結構。Encoder部分基於BERT（12層Transformer的encoder），而decoder部分僅由一層Transformer的decoder構成。在預訓練過程中，對句子進行一定比例的mask（15%～30%對於encoder，50%～70%對於decoder），然後通過encoder和decoder來重構被掩碼的部分。這種非對稱結構在encoder和decoder部分都有所改進，特別是在decoder部分，通過改變Q、K和V的計算方式來最佳化信息融合。

此外，智源團隊還推出了新一代檢索排序模型BGE Re-Ranker v2.0，該模型支持更多語言和更長文本長度，並在多個英文、中文和多語言檢索基準上取得了state-of-the-art的結果。BGE Re-Ranker v2.0還採用了分層自蒸餾策略來最佳化推理效率。