美团 LongCat-Flash-Lite 震撼发布:45 亿激活参数性能比肩巨量模型 传统 MoE(混合专家)架构通过增加专家数量提升模型能力,却常受困于边际收益递减与高昂的通信开销。今日,美团 LongCat 团队发布了全新模型 LongCat-Flash-Lit... AI资讯# LongCat-Flash-Lite# MoE# N-gram 2个月前0270
DeepSeek 推出 Engram 模块:为稀疏大模型植入“条件记忆轴”,效率大幅提升 传统的 Transformer 模型在处理重复性知识时往往显得有些“浪费”,每次遇到相同的模式都需要重新计算,这不仅消耗深度也浪费了计算资源。为了打破这一瓶颈,DeepSeek 的研究团队近日推出了一... AI资讯# Engram# N-gram# Transformer 2个月前0240