大模型训练,一半时间在摸鱼? 三分之一个世纪前,加拿大学者们提出了经典的MoE模型神经网络结构,在人类探索AI的「石器时代」中,为后世留下了变革的火种。近十年前,美国硅谷的互联网巨擎在理论和工程等方面,突破了MoE模型的原始架构,让这个原本被置于学术高阁的理念,化身成为了随后AI竞争的导火索。如今,后发优势再一次来到了大洋此岸,...
推理性能PK,华为+DeepSeek >英伟达? 环球财经网注:“大模型江湖,落地为王。”这句话的含金量还在提升。随着DeepSeek V3/R1在春节期间一夜爆火,基于超大规模MoE(Mixture of Experts)架构的大模型正在从训练开发转向推理应用的落地。对于MoE推理部署来说,效率一直是一个痛点。谁能将部署计算效率提升至最高,才能真...