Tag: 小型語言模型

為什麼小型 AI 模型這麼笨?解決「嵌入濃縮」現象的方案

介紹一種能提升小型語言模型性能的新型訓練方法「分散損失(Dispersion Loss)」,以及所謂的嵌入濃縮現象。