裁剪 | 蔡芳芳、Tina
整理 | 宇琪
推选系统在昔日一直被联想为级趋奉构,该结构下推选结束反馈无法有用的传递到每个模块,责问了推选系统的智能上界。在迈向通用智能的时间布景下,推选系统若何演进?快手在将生成式模子与推选系统整合方面作念了大量创新探索,又为咱们带来了哪些可复用的方法论与实践启示?
在 8 月 22-23 日于深圳举办的 AICon全球东说念主工智能开发与应用大会 上,InfoQ 在现场专访了 快手科技副总裁、基础大模子及推选模子负责东说念主周国睿。他在采访中详备分享了大模子工夫昂然下公司濒临的工夫插足挑战,以及拥抱大模子的决策过程。
部分精彩不雅点如下:
推选是一个锻真金不怕火的买卖化场景,在这里莫得聘任走避工夫变革的余步。
早期公司可能只给了几百张卡,那次申诉后就胜利给了大几千张卡,插足进步了数十倍,而且很快就看到了报恩。
作念工夫判断时,更迫切的是退换不雅念,不要依赖个东说念主英雄主义,而是让团队更快试错,这么胜率更高。
目下咱们如故能够用线上约 1/12 的成本,达到以致零散现存系统的效果。
昔日大师更赏玩亲手作念工夫的东说念主,这类东说念主才诚然迫切,但在今天复杂的 AI 款式中,懂工夫的 PMO 愈加不可或缺。
依赖个东说念主来作念决策的团队频频失败率很高。在大模子时间,大多数管制者的作用并不大。
在大模子上,分支聘任好多,雇主的片面拍板频频不靠谱。
当 Chatbot 成为新的进口时,大量信息流流量会被转化到 Chatbot 上,那时才是的确的战场,是以咱们必须提前准备。
以下内容基于采访速记整理,经不转变应允的删减。
InfoQ:大模子的爆发式出现,对所有工夫公司来说王人是一次弘大的挑战。弘大的算力成本和不确定的报恩,让工夫插足的决策变得前所未有的困难。算作工夫负责东说念主,您是若何看待这种挑战的?在您看来,一个工夫插足要若何确认注解其价值,才能在公司里面取得赈济?
周国睿: 起初,大师需要明确是否要作念这件事。如若个东说念主或团队达成共鸣,那么算作工夫负责东说念主和指挥者,就必须责罚资源问题。这不仅是你算作负责东说念主的职责,亦然你对公司应尽的牵扯,因为你不可让公司在要道决策上产生误判。至于若何劝服雇主,相对而言对我并不困难。
虽然公司在业务上濒临成本市集的高预期和诸多挑战,但程一笑在东说念主工智能插足上格调相配矍铄:咱们孵化了可灵,推出了由咱们自主研发的推选大模子,而不是依赖其他公司。
天然,劝服并不是讲一个“AI 来了,咱们必须全面拥抱”的故事就能取得资源。在大多数公司,除非雇主主动自在超配资源,不然很难苦求到大鸿沟插足。咱们主要从两个方面脱手:一是提前不异。我在旧年 9 月就向雇主推崇明晰,最终一定能将居品上线,并展示了完好意思的买卖逻辑:现存买卖化系统能带来若干收益,咱们狡计作念多大的模子,以及模子与现存系统之间 MFU 差距有两个数目级。在这种情况下,弃取相配明确。我告诉他,大模子的成本并莫得想象中高,而潜在收益以致超出预期,这是一个典型的买卖利益问题。
二是建树信任。推行上在旧年 9 月之前,咱们如故对系统进行过一次升级,并取得了显赫效果,这为后续的劝服奠定了基础。更要道的是,要让管制层相识到大模子的效果与先进工夫之间的差距正在连忙扩大。需要通过确认注解逻辑来建树信任,如若逻辑竖立,管制层在弃取时就能快速决策。咱们那时只申诉了一次,程一笑就地就决定插足。早期公司可能只给了几百张卡,那次申诉后就胜利给了大几千张卡,插足进步了数十倍,而且很快就看到了报恩。
推选系统有个上风,便是收益相配直不雅和可量化。比如可灵可能还需要较万古辰来考据自身价值,而推选的进步可以胜利转化为百分比增长和具体金额,算得干干净净。只消收益能够隐敝历练和推理资源的成本,公司天然自在陆续插足。
InfoQ:咱们透露大师王人在用大模子,因为它是一项新工夫,也像一种“潮水”,天然也就免不了“跟风”。但如若传统推选方法如故能取得可以、以致忘形大模子的效果,那为什么咱们依然需要插足巨资去拥抱大模子?
周国睿 第一,从插足与报恩的角度来看,这并不算大量插足。如若推选系统自身能够带来可不雅收入,举例快手一年营收在千亿东说念主民币鸿沟,那么进步 1% 便是 10 亿元,5% 便是 50 亿元,而这足以隐敝大量算力和开垦插足。与潜在收益比拟,这笔开销并不算大。
第二,传统推选系统的想象空间有限。我在 2015 年运转从事推选,那时好多东说念主质疑深度学习是否是泡沫,认为无法应用于推选,但事实确认注解他们错了。今天咱们迎来新一代工夫升级,如若不可行使更坚强的算力,就无法推动系统达到更高水平。推选是一个锻真金不怕火的买卖化场景,在这里莫得聘任走避工夫变革的余步。比拟之下,是否要作念 Chatbot 或 Coding Agent 可能还存在争议,因为其买卖价值尚未完全考据。
第三点是默契层面的反想。以 Sam Altman、Ilya 和 Elon Musk 在创立 OpenAI 时的邮件交流为例,他们早在 2016、2017 年就已相识到“scaling law”的存在。虽然那时的表述并非今天这么精确的弧线款式,但他们明确指出:AI 发展的本质便是能否行使更多算力,算力越强,效果越好。传统系统无法有用行使新增算力,如若仅仅对旧系统继续修修补补,其算力使用遵循无法跟上硬件发展的速率,最终势必过期。
既然今天有契机重演历史,为什么不去尝试新的旅途?这不是盲目跟风,而是感性聘任。算作带领大模子团队的东说念主,我完全可以把元气心灵插足其他标的,但在推选这一深耕多年的领域,如若看到了清亮的发展旅途,就有必要推动大师宠爱并跟进。除非有东说念主压根不认可“scaling law”这么的理念,就只可各走各的路。
我信服 scaling law 不存在完全的天花板,只存在阶段性的甘休。举例,硬件性能或数据质料在某一时期达到极限,就会形成瓶颈。但一朝硬件或基础设施破碎,形式就会转变。以 MFU 为例,GPU 如故使用多年,但直到最近这一观点才被平庸提倡并默契,这种默契滞后自身也确认行业存在默契差距。
InfoQ:您的团队主导了 OneRec 等下一代端到端推选大模子的研发和落地。从工夫一线的角度来看,大模子的加入,到底在底层工夫范式、用户价值和多模态内容组织上,带来了哪些本质性变革?
周国睿: 系统能够变得更智能的中枢有以下两点:第一,推选系统从昔日基于 ID 的牵记式模子,升级为完全基于内容的模子;第二,从判别式模子进化为生成式模子。以往推选系统长久莫得解脱协同过滤的范式,不管若何修订,用户在使用时虽然感到基本闲暇,但总会以为存在某些“奇怪”的地点。这恰是因为旧模子的局限性,系统无法透露或开垦这些问题。
在传统 ID 体系下,系统能责罚的问题极其有限。而当问题被渐渐责罚,就有契机推动社区交融。举例,咱们作念全模态的生成与透露长入,并不是为了展示一个“花哨的 Demo”,而是为了买通底层框架,使推选系统能够与大模子领域的快速发展保持一致。这么咱们就不再是孤独的工夫分支,而能成为所有这个词工夫急流的一部分。河水涨了,咱们也能分到一部分资源。最压根的转变在于:一方面要买通底层框架,进步可解问题的天花板;另一方面要确保默契和工夫迭代的认识,使新工夫能够实时进入。
因此,当别东说念主问我业务上的转变、遵循进步或预期天花板时,我认为这些王人不是最本质的问题,我更关注的是“加快度”。推选系统的迭代加快度相对较低,而大模子的迭代加快度则相配高。我同期带两个团队,感受互异十分泄漏,东说念主才密度和产出遵循也不同。是以,要道不仅仅坐窝拿到结束,而是能否进步团队取得结束的速率,咱们但愿团队的恶果产出速率越来越快。从加快度来看,快手的大模子发展相对劳苦,而推选标的的进展反而更快。
InfoQ:能否分享一个具体案例,确认 OneRec 是若何通过大模子工夫,责罚了传统系统难以应付的挑战,从而在业务上取得了质的飞跃?
周国睿: 第一是客不雅效果。目下咱们如故能够用线上约 1/12 的成本,达到以致零散现存系统的效果。第二是业务迭代。在传统推选系统中存在大量业务规章,举例认为崭新内容需要更多曝光、用户刚上传的内容应尽快分发,或者某些内容因营销属性需要责问权重。这些规章王人通过东说念主为界说方针并逐法子整来竣事,但这种方式频频牵一发动全身,系统容易变得僵化低效。
在 OneRec 框架下,业务迭代速率极快。业务方只需明确想法,咱们在 Reward System 中进行诊治,不时一天就能完成迭代,而昔日险些不可能作念到。这么的刚正是能快速试错和弃取,让团队有更多时辰想考推选业务的耐久形态,而不是被实验过程拖慢。实验周期从底本的时辰量级镌汰了一个数目级,带来质的飞跃。开始业务方惦记多端系统会甘休进入,但事实确认注解,新的架构反而让他们更直快地参与进来,且所有东说念主王人能在合并 Reward 模块中清亮地看到进展。
InfoQ:大模子工夫更新太快,今天的最优决议未来可能过时。在面对这么的不确定性时,您若何进行工夫押注?是基于对耐久趋势的瞻念察,对峙一条既定道路,如故保持历害,快速拥抱最新的工夫范式?能否分享一个您在工夫道路聘任上,濒临首要决策并最终作念出正确判断的具体案例?在这个过程中,您的决策依据和方法论是什么?
周国睿: 依赖个东说念主来作念决策的团队频频失败率很高。在大模子时间,大多数管制者的作用并不大。与其依靠从上至下的决策,不如让团队更快地形成共鸣。咱们的确热心的是:要作念什么实验?这个实验的动机、联想和论断是否经过团队充分推敲?不是铺开去作念许多毁坏的小实验,而是集合资源去作念大的实验。因为唯有高插足的实验才能带来新的默契,要道不在于赌对与否,而是能否充足快地生成新默契。速率并不是由数目决定的,而是当所有这个词团队王人参与、王人在被某个实验老师时,才会更快。
决策初期,如实好多事情由我来谋划。举例,当初推动 OneRec 时,是我作念的测算并劝服团队推行。但当今情况不同,比如提倡要作念“生成与透露的长入”或“全模态长入”,我并不需要花太升天气去劝服。如若你要相配辛苦才能劝服团队推行,那大约率失败率如故很高了。
如今,当咱们提倡要鼓舞全模态长入时,团队会连忙认可。因为大师如故相识到现存的 OneRec 模子际遇了瓶颈,它无法的确进行想考,天然也不可能变得更灵巧。要让它具备想考才略,全模态长入是一个很好的旅途。即便有东说念主提倡不同决议也不要紧,只消在大方朝上大师很快就能形成共鸣即可。因此,我认为作念工夫判断时,更迫切的是退换不雅念,不要依赖个东说念主英雄主义,而是让团队更快试错,这么胜率更高。
以推选系统为例,我认为咱们仍然处于率先地位。行业交流时,别东说念主以致以为咱们是“骗子”,这反而确认咱们走在前边,因此这方面莫得压力。但在大模子上,分支聘任好多,雇主的片面拍板频频不靠谱。假如一个团队推行了某个标的,三个月后新工夫出现,该若何办?你要去追逐如故跑在前边的团队?事实上,率先的团队频频掌执更多信息,跑得更快,你压根无法追上。因此聘任既有的工夫旅途并不可取,还不如退一步,望望团队在哪些方面的才略还不够,通过实践磨真金不怕火军队,让他们跑得更快,这么胜率更大。
换句话说,如故被考据的事情不需要过多弃取。当你果真濒临弃取时,确认你如故进入第一梯队。到阿谁阶段,大师的默契会愈加清亮,不会瞻念望要不要去彭胀某件事情。如若你还在纠结是否要补别东说念主如故在作念的标的,其实没必要错愕。更迫切的是专注进步我方团队的作战速率。
InfoQ:使用大模子时,蔓延是一个很大的问题。推选系统需要毫秒级的反馈,而 LLM 的反馈频频要几秒钟,该若何责罚?
周国睿: 大模子蔓延高的压根原因在于生成的 token 数目过大。如若斟酌 token 的数目较少,就不会产生泄漏的蔓延。举例在咱们作念 OneRec 时,只生成 3 到 6 个 token,因此险些不存在实时性问题。但在波及到 thinking 时,这种方式就不太可行。不外,thinking 完全可以通过离线方式竣事。模子并不需要在每次用户请求时王人重新进行想考,它可能只需每天想考几次即可,这亦然一种责罚决议。
另一方面,不可因为存在蔓延问题就烧毁探索。谁能保证改日推选系统只会停留在信息流做事?Altman 一直在提到 MemorAI,也强调个性化大模子推选的下一个迫切战场可能是 Chatbot,推选系统在其中同样迫切。比如用户想要进行旅行谋划,昔日可能只需要几段翰墨确认,而改日用户会但愿系统胜利完成商品筛选与购买。在这种场景下,推选必须确认作用,而且系统也会有更万古辰进行历练。如若因为当下居品形态莫得完全变化就不作念工夫储备,这是不可取的。因此,咱们并可以愕蔓延问题。
咱们认为有两种可能:如若改日市集泡沫破碎,也没关联络,陆续保管现存的信息流模式即可;另一种可能是,当 Chatbot 成为新的进口时,大量信息流流量会被转化到 Chatbot 上,那时才是的确的战场,是以咱们必须提前准备。
我认为要幸免被所谓的“天花板想维”甘休。如若蔓延被视为不可零散的艰苦,拆开了工夫迭代,就应该想办法去除这个变量。因为它既不是推选工夫本色态成的,也不是完全不可转变的。以致可能,现存的信息流高下滑动居品形态,之是以仍然存在,并非因为它是最优解,而是因为推选工夫尚未作念到充足精确。目下一个用户在快手或抖音上可能要刷几百个短视频,这是否意味着咱们的推选还不够好?改日是否可能出现另一种居品形态:每天只给用户推送极少内容,但能极大高兴他们的中枢需求?这种形态同样值得想考。
InfoQ:您有莫得惦记大模子的复杂性反而拖慢业务迭代?算作工夫负责东说念主,您是若何管制这种风险的?
周国睿: 大模子并不复杂,的确复杂的是传统系统。以往的推选架构中,包含调回、初排、精排、重排序等设施,还波及大量机制和政策,东说念主员繁密、组织单干复杂,这才是复杂。而大模子的结构相配清亮,本质上便是一个解码器架构,揣摸单位也很轻便:前馈网罗、自厚爱力机制和矩阵运算辛苦。在这种情况下,所谓的复杂性更多来自基础设施的适配,举例硬件和网罗,但这仅仅新的工夫栈替换,并不增多中枢复杂度。因此,大模子不会因为复杂性拖慢业务,的确的问题反而在于传统系统的复杂性。
InfoQ:工夫负责东说念主频频承担团队风险。面对复杂系统学问集合在少数东说念主手里,您若何顾惜工夫债和要道岗亭风险?以及若何谋划公司在大模子时间的工夫布局和才略储备?
周国睿: 在当下大模子领域,很难找到一个东说念主能够透彻转变某个标的的形式。这么的东说念主才市集上存量有限,短期内也难以培养出新的。因此,更现实的作念法是进步团队的举座平均作战水平。在牵扯和决策层面,最终王人需要敛迹到要道节点。
我的变装主要作念两件事:第一,联想一个风雅的组织迭代机制,包括若何招聘和淘汰。如实需要快速淘汰鉴别适的东说念主,因为要道不在于东说念主数,而在于东说念主才密度。必须确保团队成员能跟上工夫发展的速率,况兼在高速前进中还能推动进一步发展。
第二,我的不雅点很明确,不需要太多作念信息汇总或管制的东说念主。更要道的是一类常被冷漠的东说念主才——具备 PMO(款式管制办公室)视角的东说念主才。昔日大师更赏玩亲手作念工夫的东说念主,这类东说念主才诚然迫切,但在今天复杂的 AI 款式中,懂工夫的 PMO 愈加不可或缺。他们能够识别款式风险、把控进程,而无须提供工夫标的。因为 AI 款式的研发链条比传统款式更长、不确定性更大,团队成员在鼓舞过程中容易迷失,需要一个头脑清亮的 PMO 来蛊惑。
进步团队的平均作战水平,具体分两方面。第一,咱们团队竖立之初,我写了 10 条“宪章”,条件大师必须认可并每天阅读。虽然刚运转有东说念主以为不可想议,但我对峙条件他们每天读,并在作念实验后再次体会,从而进步默契。
第二,咱们的职责方式与他东说念主不同。大要 70%–80% 的资源插足在中枢实验上,同期最多并行三个实验。实验的全过程——从写代码、实验联想到结束分析——每个东说念主王人必须参与。如若有东说念主跟不上,就必须离开。即使实验不是你亲手作念的,你也必须明晰实验的目的、过程、预期和结束。如若老是拿不出不雅点,那就对团队莫得价值。
这么作念的目的是让最大资源用于培养团队举座才略。剩下 30% 的资源分派给个东说念主探索。如若有东说念主想作念新想法但零落资源,需要劝服团队借出资源赈济。若探索结束展现出 4 倍进步空间,就会被纳入中枢实验,进一步集合资源鼓舞。也便是说,团队的大量资源长久围绕共鸣事项伸开,况兼所有东说念主的默契和迭代恶果王人能分享。
InfoQ:在 Agentic AI 越来越被说起的布景下,您认为智能体会给推选系统领来什么样的变化?从推行落地的角度看,哪些任务恰当由智能体来完成,哪些任务仍然需要依赖大模子或传统算法?
周国睿: 其实这两者并不冲突。Agent 与大模子并莫得本质区别,仅仅 Agent 使用了器具,可以透露为在大模子的基础上增多了外延才略。大模子本质上是斟酌 token,而 Agent 则是在斟酌的同期能够调用器具。对于 Agent 在推选系统中的应用,我认为推敲还为先锋早。现时好多宣称在作念 Agent 的,其实更多是 Workflow,职责模式是固定的。以推选为例,传统的调回、出牌等设施自身便是典型的 Workflow,那么引入 Workflow 是否能显赫进步效果,目下还莫得明确论断。
现存的大模子频频过于长入,既要生成、透露,又要兼顾推选,但在这些基础才略王人尚未完善的情况下,Agent 很难的确确认作用。要作念到这一丝,起初需要有更锻真金不怕火的模子维持。举例,在推选结束生成后,Agent 可以进一步评估视频的审好意思、营销效果,以及举座千般性,这才是 Agent 可以作念的事情,但前提是基础模子要先充足完善。
InfoQ:您以为改日 3-5 年推选系统的要道破碎点会是什么?在 LLM 推选系统里,还有哪些“未被开采”的契机?
周国睿: 我认为最大的契机如故要回到居品形态自身。如若居品形态莫得发生首要变化,推选的进步空间有限。因为现时的推选依赖高频交互,每一次曝光的价值王人很低,需要重新揣摸,买卖价值决定了算力插足无法过多,因此模子也难以变得更“灵巧”。但如若居品形态从高频交互转向低频交互,推选系统可能会确认出远超预期的价值。
此外,还要重新想考推选的规模。举例在 Chatbot 中的个性化牵记,这究竟是大模子的问题,如故推选问题?在我看来,它便是典型的推选问题,而且咱们很早就运转讨论这方面的工夫,推选领域在这一丝上推行上率先于大部分社区,仅仅大师只怕相识到。如若要说最大的工夫红利,我认为就在这里。谁能率先竣事个性化牵记,并买通谈话与活动模态的一体化决议,谁就能取得最大的上风。我以致认为,这将成为下一个 Chatbot 战场中最要道的破碎点。
当天好文推选刚刚,光刻机霸主ASML被曝成为Mistral最大股东!网友叱咤:ASML的钱将汲水漂
CEO 上阵写代码,公司从被传濒临倒闭到千亿估值,最大元勋是Claude?
拒却招聘、居品芜俚,却成史上最快增长软件公司!4个00后“整顿”创业圈:大师王人不信,才是咱们的契机
芜俚赶工 6 周,卖出 43.6 亿!放手数百万用户被骂“作死”的 AI 浏览器 85 天回转
会议推选
10 月 23 - 25 日,QCon 上海站行将召开,限时 9 折优惠,单张门票立省 680 元,细则可推敲票务司理 18514549229 筹商。
