N-gram

共 2 篇文章

排序

发布更新浏览点赞

美团 LongCat-Flash-Lite 震撼发布：45 亿激活参数性能比肩巨量模型

美团 LongCat-Flash-Lite 震撼发布：45 亿激活参数性能比肩巨量模型

 传统 MoE（混合专家）架构通过增加专家数量提升模型能力，却常受困于边际收益递减与高昂的通信开销。今日，美团 LongCat 团队发布了全新模型 LongCat-Flash-Lit...

AI资讯 # LongCat-Flash-Lite # MoE # N-gram

2个月前

0270

DeepSeek 推出 Engram 模块：为稀疏大模型植入“条件记忆轴”，效率大幅提升

DeepSeek 推出 Engram 模块：为稀疏大模型植入“条件记忆轴”，效率大幅提升

传统的 Transformer 模型在处理重复性知识时往往显得有些“浪费”，每次遇到相同的模式都需要重新计算，这不仅消耗深度也浪费了计算资源。为了打破这一瓶颈，DeepSeek 的研究团队近日推出了一...

AI资讯 # Engram # N-gram # Transformer

2个月前

0240