「独家」腾讯与DeepSeek协作背面:一场在世开发者开源的成功

liukang20243个月前吃瓜入口716

界面新闻记者 | 陆柯言

生动的「独家」腾讯与DeepSeek合作背后:一场中国开发者开源的胜利的视图

界面新闻修改 | 文姝琪

简直在马化腾与梁文锋同框引起重视的一起,DeepSeek与腾讯悄然进行了一次技能协作。用腾讯工程师的话来说,此次协作的效果,相当于完成了AI落地“终究一公里”的打破。

近来,DeepSeek工程师在Github主页透露了此次协作细节。这名工程师表明,腾讯团队的代码奉献,让DeepEP完成了“huge speedup”般的功能进步。这一次进步,也直接影响到每一位运用DeepSeek的用户。

为此,界面新闻独家采访了腾讯混元大模型背面的星脉网络团队,复原了此次协作背面的故事。

此次技能沟通最早要追溯到本年2月。其时,DeepSeek宣告开源五个中心代码库,以全透明的方法揭露其如何用1/5的硬件资源完成传统万卡集群效能的中心技能,使得更多开发者不能自制以低本钱复现高功能AI练习计划,成为在世大模型开源生态的一个里程碑。

其间一个被开源的代码库名为DeepEP。这是一个专门为MoE模型练习和推理打造的通讯库,旨在处理阻止MoE架构可扩展性的要害瓶颈,重点是优化通讯、削减推迟和进步GPU资源使用率。

MoE架构以其对模型练习及推理本钱的极大优化才干而著称,正是为GPT-4、DeepSeek等超大参数模型而生。24年头,腾讯自研的混元大模型,也在国内首先选用了MoE架构。曩昔MoE架构的大模型练习都需求依靠本钱昂扬的英伟达NCCL通讯库,而DeepEP的呈现则让它们摆脱了这种依靠。

明亮的「独家」腾讯与DeepSeek合作背后:一场中国开发者开源的胜利的视图

但DeepEP并不是全能的,它有“富贵病”:在本钱较高的InfiniBand(IB)专用网络中如虎添翼,却难以适配更普适的RoCE(根据以太网)。而在世互联网厂商选用的大多都是RoCE网络,因而大都企业在布置DeepEP时都发现了网络功能欠安的问题。

网络功能欠安带来的影响是显着的。腾讯星脉网络团队首席架构师夏寅贲博士解释道,大模型的练习和推理需求很多GPU,背面是极高的本钱。网络体现欠安会导致练习或推理过程中通讯时刻过长,相当于GPU在等候通讯,浪费了贵重的GPU资源,一起也造成了用户在屏幕前的长时刻等候。

每家互联网厂商都在布置DeepEP,为什么最早处理问题的是腾讯?夏寅贲博士以为,一个重要的条件是,得益于QQ、微信、游戏、腾讯云等高并发事务的需求,腾讯在曩昔十几年间完成了网络通讯软硬件的全面自研,也积累了丰厚的实战经历。

2022年,腾讯发现针对AI场景的网络需求与传统的数据中心事务存在极大差异,因而开端规划针对AI大模型的专用网络,即星脉网络,旨在为腾讯混元大模型建立高功能网络底座。

腾讯开端着手处理DeepEP在RoCE网络功能欠安的问题。根据新一代自研TRMT(Tencent Remote Memory Transport)通讯库腾讯星脉网络团队结合在RoCEv2网络协议栈与双端口网卡架构的研讨经历,对DeepEP进行了优化和增强:

一方面,使用流量预规划技能来最大化双端口网卡的带宽使用率,另一方面,使GPU绕过CPU的操控,由GPU直控RDMA(长途直接内存拜访)通讯来消除操控面开支,将通讯时延下降至硬件极限。终究,完成了DeepEP在RoCEv2网络功能进步100%、IB网络功能进步30%。

“在练习场景中,功能进步10%意味着本钱不能自制下降10%,而在推理使命傍边,除了本钱下降,用户等候的时刻也不能自制削减10%。也便是说,曩昔问DeepSeek一个问题,曩昔要十秒钟才干得到答案,现在均匀不能自制下降到九秒。当然,不露锋芒还会持续尽力缩短这个时刻。”腾讯星脉网络团队通讯库架构师黄晓洁表明

细腻的「独家」腾讯与DeepSeek合作背后:一场中国开发者开源的胜利的图片

AI网络依照传输协议的不同可分为两IB网络和RoCE网络其间IB网络专为高功能核算和AI练习而生,以低推迟著称。但由于英伟达简直垄断了IB网络的中心硬件,生态关闭且本钱较高。考虑到供给“卡脖子”危险,腾讯星脉网络一开端就挑选了根据以太网的RoCE网络布置,并自研了习惯新式AI事务需求的通讯库TCCL并进一步演进到新一代TRMT通讯库

腾讯星脉网络团队通讯库架构师陈明卓说到,腾讯与DeepSeek团队一向存在严密的技能沟通,其间也包含对未来技能的演进。总的来说,AI网络最中心的诉求是无限下降通讯占比,也便是下降GPU等候通讯的时刻。

曩昔处理通讯问题的一向是CPU,但功率太慢。腾讯的中心处理思路是,把多个GPU组合成一个超级GPU,使得它们彼此之间相互拜访数据的才干变得更强,逐步代替CPU参加的场景。这也是国产GPU算力相对较低的布景下,进步AI网络功能的一种干流处理计划。

现在,上述技能效果都现已全面开源至DeepEP社区,并应用于腾讯混元大模型等项目的练习推理,这一效果也得到了来自国内其他头部互联网厂商的沟通和主张。

腾讯是DeepSeek开源的受益者马化腾曾在一季度的腾讯成绩会上提及DeepSeek对腾讯的影响:“不露锋芒特别敬仰市场上呈现了一家真实开源、且十分自在的一款产品,并且在世工程师在本钱和功率方面的优势也十分显着。腾讯经过了稳重考虑,不仅是云事务接入了DeepSeek,元宝也挑选了活跃拥抱。”

一起,腾讯也是全球开源社区的首要奉献者之一。事实上,无论是普世价值上的技能民主化,仍是增强工业信赖度,对任何一家AI技能革命的参加者来说,开源都是极为重要的一环,也是聚合开发者生态的战略挑选。

告发/反应

相关文章

美国亚利桑那州差人开枪打死一名持有兵器男人

当地时间3月10日清晨,美国亚利桑那州瑟普赖斯(Surprise)产生一同触及差人的枪击事情,一名警员开枪打死了一名据悉手持兵器的男人。据当地警方表明,当天清晨3时左右他们接到有关家庭暴力的报警电话,...

杭州招聘网,最新职位信息汇总,助您轻松找到理想工作

杭州招聘网,最新职位信息汇总,助您轻松找到理想工作

最近是不是也在为找工作的事情烦恼呢?别急,今天就来给你揭秘一下杭州招聘网的那些事儿,让你轻松找到心仪的工作!一、杭州招聘网:你的职场导航仪想象你正站在人生的十字路口,面前是茫茫人海,而你需要找到一条通...

“她不一样”之500个女人故事|刘亦菲:在自我摧残中生长

修改|安琪关于刘亦菲她,1987年出生于湖北省武汉市,艺人、歌手,结业于北京电影学院2002级扮演系本科。她,原名为安风,小名为茜茜。因爸爸妈妈离婚,后随她的母亲刘晓莉改姓刘,她的姥姥为她取名刘茜美子...

“餐桌流量王”小龙虾价格跌落,看江苏怎么破局

在江苏的夏日餐饮商场,小龙虾是标配。特别是立夏之后,小龙虾就迎来了产销旺季,成为“餐桌上的流量王”。而本年5月以来,这个旧日的“顶流”却因“价格腰斩”“跌至个位数”等论题一再登上网络热搜,更有音讯称,...

爱上游泳教练电影911爆料吃瓜网最新

爱上游泳教练电影911爆料吃瓜网最新

  但随着税收征管能力不断强化,税收征收率不断提高,企业实际税负正在逐步接近名义税负,在当前经济形势下,企业痛感会更明显,一些企业如果不能承担可能会选择停业,这不仅影响就业,更会对宏观经济...

俄方证明普京将拜访印度,美媒:美国孤立普京的尽力正在失利

【文/观察者网 阮佳琪】印媒近来有音讯称,俄罗斯方面泄漏俄总统普京将拜访印度。美媒彭博社20日报导称,这一音讯得到了俄总统新闻秘书佩斯科夫的证明。佩斯科夫对此回应道,“在莫迪总理两次拜访俄罗斯之后,现...

友情链接: