勵志

勵志人生知識庫

bge模型

BGE模型,全稱為BAAI General Embedding,是由北京智源人工智慧研究院提出的一種通用語義向量模型。自2023年8月發布以來,智源團隊不斷更新和擴展BGE系列模型,包括中英文模型BGE v1.0、v1.5以及多語言模型BGE-M3。這些模型在全球範圍內下載量超過1500萬,位於國內開源AI模型的首位。BGE-M3模型在Hugging Face熱門模型中排名前三,其代碼倉庫在Github上也位於熱門項目前10。BGE系列模型在文本檢索和排序方面表現出色,特別是在混合檢索能力方面,通過融入visual token,實現了「文本+圖片」的混合檢索能力。

BGE模型的訓練過程包括三個階段:

在通用文本上進行預訓練;

在通用文本上使用無標籤數據進行微調;

在特定任務上使用有標籤數據進行微調。

在預訓練階段,BGE採用RetroMAE模型架構,這是一種非對稱的encoder-decoder結構。Encoder部分基於BERT(12層Transformer的encoder),而decoder部分僅由一層Transformer的decoder構成。在預訓練過程中,對句子進行一定比例的mask(15%~30%對於encoder,50%~70%對於decoder),然後通過encoder和decoder來重構被掩碼的部分。這種非對稱結構在encoder和decoder部分都有所改進,特別是在decoder部分,通過改變Q、K和V的計算方式來最佳化信息融合。

此外,智源團隊還推出了新一代檢索排序模型BGE Re-Ranker v2.0,該模型支持更多語言和更長文本長度,並在多個英文、中文和多語言檢索基準上取得了state-of-the-art的結果。BGE Re-Ranker v2.0還採用了分層自蒸餾策略來最佳化推理效率。