手机浏览器扫描二维码访问
最近商汤大装置和记忆张量联手搞出了个大动静——落地了业界首个国产GPGPU PD分离商用推理集群,最亮眼的成绩是:在大模型推理这个关键赛道上,综合推理性价比直接干到了同代NVIDIA A100的150%。
这话乍一听有点抽象,说白了就是:用国产的芯片和软件,跑大模型推理业务,花同样的钱能跑出1.5倍的效果,或者说跑出同样的效果,只需要花三分之二的钱。更关键的是,这不是靠堆硬件、拼参数的“笨办法”,而是靠体系级的软硬件协同创新,给国产算力闯出了一条“弯道超车”的路子,不是跟在别人屁股后面模仿。
下面咱们用大白话把这件事的来龙去脉、核心门道和行业意义掰扯清楚,让大家明白这波操作到底牛在哪。
一、先搞懂:大模型推理为啥这么难?PD分离又是啥?
要理解这个合作的价值,得先明白大模型推理的核心痛点。咱们平时用ChatGPT、文心一言这类大模型,看似只是发个指令等回复,背后的计算过程其实分两大步,这两步的需求天差地别,也是卡住很多算力的“瓶颈”。
第一步叫Prefill(预处理)。当你输入一个问题,比如“帮我写一篇关于古蜀文明的短文”,大模型要先把这段文字转换成机器能看懂的向量,然后一次性计算出大量的中间结果,也就是KV缓存。这个过程的特点是计算量大、可以批量处理,就像工厂里的流水线批量生产零件,需要算力集中发力,但对延迟要求不高——稍微等个几十毫秒,用户根本感觉不到。
第二步叫Decode(解码)。大模型拿到KV缓存后,要逐字逐句生成回复,也就是“逐token生成”。比如先出“古蜀文明”,再出“是中国西南地区一支极具特色的古代文明”,每生成一个词,都要用到前面的KV缓存。这个过程的特点是计算量小,但对延迟要求极高——要是生成一句话卡个一两秒,用户体验直接拉胯,而且这个过程没法批量,只能“串行干活”。
这两步本来是在同一批硬件上完成的,问题就出在这:Prefill阶段需要“暴力计算”,会占满硬件的算力和显存;等轮到Decode阶段,硬件又闲着大半,算力利用率直接暴跌。尤其是国产GPGPU,本身在显存容量、生态适配方面和国际顶尖产品有差距,这么一折腾,劣势更明显——跑同样的任务,成本高、速度慢,根本没法商业化。
那PD分离是啥?说白了就是“分工合作”——把Prefill和Decode这两个阶段,拆到不同的硬件集群上分别处理。负责Prefill的集群专门干“批量重活”,把KV缓存算好;负责Decode的集群专门干“精细快活”,用现成的KV缓存快速生成回复。这样一来,硬件不用在两种模式间来回切换,利用率能提一大截。
但这里要划重点:单纯的硬件PD分离,解决不了根本问题。很多厂商之前也试过,结果发现只是把“一个瓶颈”变成了“两个瓶颈”——Prefill集群算完的KV缓存,要传到Decode集群,传输过程会产生延迟;而且KV缓存本身占显存,就算分开处理,显存不够用的问题还是没解决,性价比提升非常有限。
二、核心突破:不是改硬件,是重构整个推理范式
商汤和记忆张量的聪明之处在于,他们没有局限在“硬件层面拆分工序”,而是把PD分离技术,和记忆张量的核心产品MemOS的激活记忆体系深度绑在了一起,相当于从“流水线分工”升级到了“全产业链协同”,直接重构了大模型推理的底层逻辑。
咱们来拆解这个“协同创新”的关键操作,其实就两件核心事,件件都戳中痛点:
1. MemOS的激活记忆体系:让KV缓存“活起来”,省下大量显存
前面说过,KV缓存是大模型推理的“刚需”,但它特别占显存——一个千亿参数的大模型,一次推理产生的KV缓存,就能吃掉好几GB的显存。传统模式下,这些缓存用过一次就扔,下次再推理,又要重新计算,既费算力又费显存。
而MemOS的激活记忆体系,说白了就是给KV缓存搞了个“智能管理系统”。它能做到两件事:
- 缓存复用:把高频出现的KV缓存(比如用户经常问的“大模型是什么”这类通用问题的缓存)存起来,下次再有用户问类似问题,直接调用现成的缓存,不用重新计算。这就像餐厅里的预制菜,不用每次都从零开始炒菜,节省大量时间和燃气。
- 动态压缩:对不常用的KV缓存,进行无损压缩,把显存占用率降下来。比如原本占10GB的缓存,压缩后只占5GB,省下的显存就能用来跑更多的推理任务,相当于一台机器当成两台用。
江家大少爷天生体质特殊,没有阴气没有阳气,爷爷算出他多灾多难、蓝颜薄命,需要积德行善延长寿命。 于是,整天吃喝玩乐、游手好闲的江辞无继承了爷爷倒闭的香火店。 白天,香火店空无一人。 晚上,香火店鬼头攒动。 看着凶神恶煞的厉鬼们,江辞无乐了:“感谢大自然的馈赠。” 隔天香火店举办开业活动:“回馈大众,体验抓鬼,一人一百。” “数量有限,先到先抓,不准带走。” 众鬼:“???” * 后来 江辞无红遍阴阳两界,两界媒体争相采访。 他神情自若,瞎几把扯:“我以德服鬼,所以不受五行所限,超脱六界之外。” “连阎王爷看见我,都得喊一声江老板。” 爷爷:“???” 阎王爷:“嗯。” wb@啾啾大王吖 封面人设美工劳斯买了授权的 注: 1、轻松沙雕抓鬼玄学文,非恐怖解密,介意勿入 2、玄学内容全部虚构,如有雷同,可能是我有点天分。 3、1V1,怼天怼地活阎王受X宠妻大帝攻。感情线慢热,攻偏背景板,受金手指粗粗壮壮 4、评论不一定看得见,有问题可以私信wb@啾啾大王吖 5、同类型完结文《嫁入豪门后我的小道观火了》...
新书已发:《仙界网店系统》有佣兵之王称号的任风,因为一个意外的保镖任务重回都市,各色的美女纷至沓来,从此开启了纵横都市的生活。...
争做一个好男人,对得起自己、家人、对象、兄弟,对得起国家、世界……假富二代是我?看我如何洗白成真二代!江湖骗子是我?看我如何逆袭成真国医!坏爸爸是我?看我如何做好爸爸宠宠宠!......
主线剧情:来自贫困星球的少年希云逸参加星宇星际学园的入学考核,结果意外被要求进行特殊试炼。在试炼中,他穿越虫洞进入神秘的宇宙维度,与神秘的能量生命体展开激烈战斗,还遭遇了极端的宇宙灾难和困境。-人设:贫困星球少年&神秘能量生命体vs星际学园、星际联盟-情节:学园考核、神秘宇宙维度、极端困境、悬疑-年代:星际未来纪-......
作为一本玛丽苏文里的主角,宁耀每天从八千米的大床上醒来,头发会随着心情变换颜色,眼泪流出来会变成宝石。 宁耀过得快快乐乐,直到有一天,系统突然出现告诉宁耀,其实他是虐主升级文里一个受尽娇宠的反派炮灰,现在他们即将修正世界错误,把他送回虐主文中。 而在这篇虐主文里,主角郁澧从小受尽苦难与折磨,变得冷心冷情,狠辣阴险,终成第一人,毁灭了这个世界。 宁耀突然被扔到虐主文世界时,发现主角就站在他面前,而距离主角那把能够劈山开海的神剑割破他喉咙,就差那么一丁点了! 眼泪被吓出,闪耀而珍贵的宝石滚落一地。 主角沉默片刻,收回剑,拎起宁耀衣领,冷冷道:“以后,你每天哭出半箱宝石,否则我就杀了你。” #论,成为灭世魔王的移动金库,是一种什么感受# #身为工具人的悲哀# * 一开始,宁耀边哭边眼眶通红的撒娇:难受。 郁澧一眼不看他,将剑架到了他脖子上。 后来。 只是细沙迷了眼,就有人拥他入怀,为他挡住风沙。 “不许哭,”郁澧语气冷硬,抱着他的动作轻柔。“我看你是想要了我的命。” * 上辈子,郁澧一生行走在黑暗中,是人人惧怕的修罗。 重生一世,也没什么不同,世间对他而言,只不过是一个报复场。 直到他遇见宁耀。 他的残暴、冷漠,所有一切能让人恐惧的东西,在这个人面前尽数收敛,化为护盾,不让宁耀再流一滴眼泪。 他的太阳,将他照亮,给他温暖,他却要把太阳拉下,将太阳揽入怀中,独占每一丝光芒。 直到太阳完完全全染上他的气息,从里到外都是他的味道。 救赎文,主角是撒娇精,非强受,1v1,he...
脑洞文,没有极致拉扯和无故虐待,替身文化也没有。有cp女主男主双洁,无系统之类金手指。九九无意融合爱看书的残魂执念,给自己贴上路人甲的标签。第一位人生导师告诉她,时间对修士更重要。九九开始踏上追求长生之路,一路上不小心混进主角团。......