勵志

勵志人生知識庫

deit模型

DeiT(Data-efficient image Transformers)是一種基於Transformer架構的圖像分類模型,由Facebook AI Research索邦大學Matthieu Cord教授合作開發。以下是關於DeiT模型的詳細介紹:

模型架構:

DeiT模型採用了Transformer的自注意力機制,將圖像分割成若幹個固定大小的塊,並對每個塊進行編碼,以捕捉圖像中的長程依賴關係。

該模型目前有三個版本:tinysmallbase,它們的主要區別在於輸入的header個數及embed_dim,均由12個Attention結構組成。

訓練策略:

DeiT提出了基於token的教師-學生蒸餾訓練策略,這種策略允許模型從教師模型的輸出中學習,同時與類令牌保持互補。

在訓練過程中,DeiT使用了知識蒸餾技術,通過教師模型生成的soft labels(軟標籤)來指導學生模型(即DeiT模型)的學習。

性能與數據效率:

DeiT模型能夠在保持高性能的同時,大大提高數據效率,僅使用ImageNet-1K數據集就能達到83.1%的Top1準確率。

與傳統的CNN相比,DeiT在數據效率方面取得了顯著的優勢,解決了Transformer難以訓練的問題,僅用三天內、四塊GPU的訓練時間就達到了SOTA水平。

模型移植:

DeiT模型基於Pytorch框架訓練及推理,可以使用算能TPU-MLIR工具鏈編譯成可以在算能BM1684X平台上推理的bmodel。

綜上所述,DeiT模型通過結合Transformer的自注意力機制和知識蒸餾技術,為圖像識別領域帶來了顛覆性的變化,特別是在數據效率方面展現了優越的性能。