介紹一種能提升小型語言模型性能的新型訓練方法「分散損失(Dispersion Loss)」,以及所謂的嵌入濃縮現象。
小型言語モデルの性能を向上させる新しい訓練手法である「分散損失(Dispersion Loss)」と、埋め込み凝縮現象について解説します。