deit模型 _勵志人生網

DeiT（Data-efficient image Transformers）是一種基於Transformer架構的圖像分類模型，由Facebook AI Research和索邦大學的Matthieu Cord教授合作開發。以下是關於DeiT模型的詳細介紹：

模型架構：

DeiT模型採用了Transformer的自注意力機制，將圖像分割成若幹個固定大小的塊，並對每個塊進行編碼，以捕捉圖像中的長程依賴關係。

該模型目前有三個版本：tiny、small和base，它們的主要區別在於輸入的header個數及embed_dim，均由12個Attention結構組成。

訓練策略：

DeiT提出了基於token的教師-學生蒸餾訓練策略，這種策略允許模型從教師模型的輸出中學習，同時與類令牌保持互補。

在訓練過程中，DeiT使用了知識蒸餾技術，通過教師模型生成的soft labels（軟標籤）來指導學生模型（即DeiT模型）的學習。

性能與數據效率：

DeiT模型能夠在保持高性能的同時，大大提高數據效率，僅使用ImageNet-1K數據集就能達到83.1%的Top1準確率。

與傳統的CNN相比，DeiT在數據效率方面取得了顯著的優勢，解決了Transformer難以訓練的問題，僅用三天內、四塊GPU的訓練時間就達到了SOTA水平。

模型移植：

DeiT模型基於Pytorch框架訓練及推理，可以使用算能TPU-MLIR工具鏈編譯成可以在算能BM1684X平台上推理的bmodel。

綜上所述，DeiT模型通過結合Transformer的自注意力機制和知識蒸餾技術，為圖像識別領域帶來了顛覆性的變化，特別是在數據效率方面展現了優越的性能。