AMD发布首个小语言模型“AMD-135M”：加入Llama家族-个人笔记

AMD正式发布了其首个小语言模型（SLM），命名为 “AMD-135M”。该模型属于 Llama 家族，并提供了两个不同版本。第一个是基础版 “AMD-Llama-135M”，模型经过多达 6700亿个token 的训练数据，在 八块 Instinct MIM250 64GB 加速器 上运行六天完成训练。第二个是针对编程的延伸版 “AMD-Llama-135M-code”，在基础版本的基础上，额外增加了 200亿个专为编程准备的token，使用相同硬件完成了四天的训练。

20241002115407841-17990332_65073d7c_4452_684_489@1080x454