这项由ByteDance Seed团队和新加坡国立大学合作完成的照管发表于2025年8月,论文题为《Taming the Chaos: Coordinated Autoscaling for Heterogeneous and Disaggregated LLM Inference》。感敬爱的读者不错通过arXiv:2508.19559v1调查竣工论文。照管团队开发了一套名为HeteroScale的智能诊治系统,成心惩办大范畴AI工作中GPU资源自动分派的复杂难题。
面前的大语言模子工作就像一个深广的餐厅,需要处理海量的主顾点餐需求。传统的作念法是让厨师既负责准备食材(预处理阶段),又负责烹调出餐(生成恢复),这种一条龙工作天然浅薄,但服从不高。新的步履是把这两个规范分开:成心的师父负责准备食材,另一批师父成心负责烹调。这种单干叫作念Prefill-Decode(P/D)辩别架构,能大大提高举座服从。
但这种单干带来了三个头疼的问题。率先是开拓不匹配的问题,就像准备食材需要的是尖锐的刀具,而烹调需要的是大火力炉灶,不同工种需要不同的专科开拓。如果总共师父齐用一样的开拓,势必会形成奢侈。其次是换取资本问题,食材准备好后需要快速传递给烹调师父,如果两个责任台距离太远,传递过程就会拖慢总共这个词经由。临了是东说念主员配比问题,如果准备食材的师父太少,烹调师父就要恭候;反之,烹调师父不够,准备好的食材就会积压。
ByteDance的照管团队面临的恰是这么的挑战,只不外他们经管的不是餐厅,而是领有数万张GPU的超大范畴AI工作集群。他们的HeteroScale系统就像一个超等智能的餐厅司理,随机实时监控每个重要的责任景色,自动调配东说念主手和开拓,确保总共这个词经由高效运转。
一、问题的中枢:三大挑战若何影响AI工作服从
要斡旋HeteroScale惩办的问题,咱们不错把AI工作比作一个超等复杂的活水线工场。在这个工场里,处理用户央求分为两个主要重要:率先是斡旋和分析用户的问题(预处理阶段),然后是徐徐生成恢复(生成阶段)。这两个阶段就像工场里的不同工序,各有各的特色和需求。
第一个挑战是硬件配置失当形成的资源奢侈。预处理阶段就像是藏书楼里的照管责任,需要强盛的"大脑"来快速斡旋和分析复杂信息,因此需要绸缪智商强的GPU。而生成阶段更像是按照既定模板进行复制责任,主要需要的是大容量的"哀悼储存"来保存之前的潦倒文信息。如果用并吞种GPU来处理这两种十足不同的任务,就好比让赛车司机去开货车,让货车司机去开赛车,齐无法阐扬各自的最大上风。照管数据裸露,这种"一刀切"的配置时势会让每个生成的token资本增多41%,这在处理数万亿token的范畴下,奢侈是极其惊东说念主的。
第二个挑战是集合传输瓶颈。两个阶段之间需要传递一个叫作念"KV缓存"的首要数据,这就像是工场活水线上的半制品需要从一个车间传递到另一个车间。这个数据包含了到面前为止对话的所关系键信息,数据量很大。如果两个处理单位距离太远,比如一个在北京,一个在上海,那么传输这些数据就需要很万古候。照管团队发现,如果不考虑集合距离纵情分派任务,会导致传输带宽减少约20%,班师影响举座响应速率。
第三个挑战是两个阶段之间的东说念主员配比失衡。这个问题止境精巧,因为传统的监控步履会产生误导。平凡咱们通过GPU使用率来判断系统是否忙碌,就像通过职工是否在责任来判断他们是否致力。但在AI工作中,负责生成恢复的GPU即使在不太忙的时候,使用率也可能裸露很高,因为它需要不息负责多半的潦倒文信息在内存中,就像一个典籍经管员即使莫得读者,也要不息整理和负责书架。这种"失实忙碌"让系统经管者误以为生成阶段很忙,从而分派过多资源给它,反而让预处理阶段资源不及。
这三个问题相互关联,形成了一个复杂的经管难题。传统的自动诊治系统,比如Kubernetes的水平扩张器(HPA),就像是只会按固定例则责任的浅薄机器东说念主,无法移交这种复杂情况。它们平凡只看单一目的,比如CPU使用率,然后浅薄地增多或减少工作器数目。但在AI工作的场景下,这种浅薄凶残的步履会导致系统荡漾,时而资源过度分派,时而资源严重不及,无法保管褂讪高效的工作。
二、HeteroScale的惩办决议:三层架构的智能诊治
面临这些挑战,照管团队想象了HeteroScale系统,就像为复杂的工场建立了一套三级经管体系。每一层齐有明确的职责,相互配合,确保总共这个词系统高效运转。
最表层是计谋决策层,就像工场的总司理办公室。这一层负责制定举座计谋,决定什么时候需要增多东说念主手,什么时候需要减少东说念主手。它集合各式运营数据,包括订单量变化、职工责任强度、开拓使用情况等,然后证据预设的业务想法作念出诊治决策。这一层的重要革命在于它不是浅薄地看某个单一目的,而是综合考虑多种要素,止境是接收了一种叫作念"decode TPS"的目的当作主要判断依据。
中间层是研究预诊治层,止境于工场的坐蓐诊治部门。当表层决定需要调整东说念主员配置后,这一层负责具体的东说念主员和开拓安排。它需要考虑的要素包括:哪些开拓最稳当新任务、若何保证说合团队随机就近责任、如安在不同优先级的任务之间合理分派资源等。这一层引入了两个首要主见:部署组(Deployment Group)和RDMA子组。部署组确保需要密切说合的责任单位随机在并吞个区域内责任,而RDMA子组则证据开拓的稀缺进度和性能水平进行优先级经管。
最基层是子集群诊治层,雷同于各个车间的现场主宰。这一层班师与底层的Kubernetes系统对接,负责将表层的诊治决策逶迤为具体的操作指示,比如启动新的服求实例、关闭不需要的实例等。它还负责朝表层论说开拓景色和资源使用情况,为决策层提供准确的基础数据。
这种三层架构的最大上风在于单干明确但调解统一。每一层齐专注于我方最擅长的责任,同期通过圭臬化的接口与其他层交流。这种想象既保证了系统的活泼性,也确保了决策的一致性和实施的高效性。
三、中枢革命:从芜杂中找到秩序的三大法宝
HeteroScale系统的中枢革命不错用三个相互关联的"法宝"来综合,它们共同惩办了大范畴AI工作诊治中的根人性难题。
第一个法宝是异构资源经管框架。传统的资源经管就像是筹画一家惟有圭臬房间的酒店,总共来宾齐住一样的房间。但试验上,有的来宾需要的是带大书桌的商务房间(稳当预处理任务),有的来宾需要的是有大衣柜的舒适房间(稳当生成任务)。HeteroScale建立了一套智能的房间分门户统,它率先识别每种任务的具体需求,然后将其与最匹配的硬件资源配对。系统会自动负责一个谨防的资源清单,纪录每种GPU的性格,包括绸缪智商、内存大小、集合贯穿质料等,然后证据任务特色进行最优匹配。更首要的是,系统还会考虑工作的优先级,确保首要任务随机优先赢得最好资源。
第二个法宝是集合感知诊治抽象。这个革命惩办了"距离问题"。系统引入了部署组的主见,就像为需要频繁说合的职工安排相邻的办公室。每个部署组包含处理并吞个工作央求的总共组件,系统会确保这些组件被安排在集合距离最近的位置,平凡是在并吞个交换机底下。同期,系统还建立了RDMA子组的优先级体系,将集合资源分为三个等第:低优先级的是同质GPU子组,中优先级的是异质GPU子组,最高优先级的是随机在并吞个交换机下班师贯穿不同类型GPU的子组。诊治器会优先为条件不高的工作分派低优先级资源,把最特等的高优先级资源留给最需要的工作。
第三个法宝是基于坐蓐数据的全面诊治计谋分析。这可能是总共这个词系统最首要的革命。照管团队作念了一件前东说念主莫得作念过的事情:他们对坐蓐环境中的各式监控目的进行了大范畴的实证分析,最终发现了一个重要细察。传统上,公共齐风气用GPU使用率来判断系统致力进度,但在AI工作中,这个目的会产生严重误导。止境是在生成阶段,即使责任量很轻,GPU使用率也会保执在很高水平,因为它需要执续负责内存中的潦倒文信息。
照管团队测试了八种不同的监控目的,包括婉曲量目的(每秒处理的token数目)、硬件目的(GPU绸缪单位活跃度、GPU摆布率)、蔓延目的(初度响当令候、后续响当令候)等。通过对比分析,他们发现"decode TPS"(生成阶段每秒处理的token数)是最可靠的目的,它随机准确响应系统的信得过责任负荷,不会被内存操作干豫。
基于这个发现,他们想象了两套互补的诊治算法。关于线性变化的目的,接收比例适度算法,当责任量增多时,按比例增多资源。关于非线性变化的目的(如蔓延),接收负反馈适度算法,竖立多个阈值,在不同进度的压力下触发不同幅度的调整。这种双重计谋既保证了系统的响应速率,又幸免了过度调整导致的不褂讪。
四、实战考证:从实验室到坐蓐环境的全面测试
为了考证HeteroScale系统的试验服从,照管团队进行了从小范畴实验到大范畴坐蓐部署的全场地测试,就像一款新药需要经过从试管到临床的竣工考证过程。
率先,他们进行了P/D比例优化实验。这个实验就像寻找最好的职工配比,照管团队测试了两种不同类型的工作,望望预处理职工和生成职工的最好比例是若干。工作A处理的主如果中等长度的对话,输入平均3000个字符,输出约350个字符,条件初度响当令候不进步1秒,后续响应间隔不进步40毫秒。工作B处理更复杂的长对话,输入平均7800个字符,输出约700个字符,条件初度响当令候不进步1秒,但后续响应更快,不进步20毫秒。
实验断绝发现了一个真谛的表象:最好比例并不是固定的,而是呈现钟形散布。当预处理职工太少时(比例过低),生成职工只可恭候,形成初度响应超时;当预处理职工太多时(比例过高),会让生成重要过载,导致后续响应变慢。最好比例范围很广,从1:5到9:1齐有可能,十足取决于具体的业务特征和性能条件。这个发现确认了"一刀切"配置的问题,也考证了HeteroScale活泼调配智商的首要性。
接着,他们进行了诊治目的对比实验。实验团队采选了一个处理敞开域对话的工作当作测试对象,这种工作最接近平素用户的使用场景。他们索要了8小时的信得过责任负载数据,这段时候包含了从朝晨低谷到下昼岑岭的竣工周期,为算法提供了充分的查验。
实验中,TPS类目的阐扬出了优异的响应性格。不管是预处理TPS照旧生成TPS,齐能准确追踪责任负载的变化,信噪比很高,响应实时。当用户央求增多时,这些目的会立即上涨;当央求减少时,目的会相应下落。这种明锐性使得诊治系统随机快速作念出正确的扩得意缩容决策。
硬件类目的则出现了明显的分化。预处理阶段的GPU摆布率和绸缪单位活跃度随机较好地响应责任负载变化,天然明锐性不如TPS目的,但仍然可用。关联词,生成阶段的硬件目的阐扬厄运,即使在责任负载很轻的情况下,GPU摆布率和绸缪单位活跃度依然保执在高位,十足无法响应信得过的业务压力。
蔓延类目的展现了典型的非线性特征。在负载较轻时,初度响当令候和后续响当令候齐保执在较低水平,弧线相对缓慢;但当负载接近系统容量极限时,蔓延会急剧上涨,呈现"绝壁式"增长。这种性格让蔓延很难当作日常诊治的主要依据,但不错当作难过情况下的安全阀。
最终的坐蓐环境考证更是令东说念主印象长远。HeteroScale面前经管着ByteDance数万张GPU,每天处理数万亿个预处理token和数千亿个生成token。在一个代表性的对比测试中,启用HeteroScale的工作比较未启用的工作,GPU平均摆布率提高了26.6个百分点,绸缪单位活跃度进步了9.2个百分点。更首要的是,这些更动齐是在不违背任何工作质料条件的前提下完了的。
从具体的工作案例来看,一个敞开域对话工作在启用HeteroScale后,举座GPU使用量减少了41.3%,预处理GPU平均摆布率从46.8%进步到76.2%,预处理绸缪单位活跃度从36.6%进步到62.5%。同期,系统的蔓延目的变得愈加褂讪,波动幅度明显减小,偶尔出现的蔓延峰值也主如果由于扩容过程中的暂时性P/D比例失衡形成的,系统很快就会自动成立。
五、时候革命的深层意旨:从头界说AI工作的资源经管
HeteroScale的见效不单是是一个工程时候的得手,更代表了AI工作资源经管理念的根人性转变。这种转变就像从传统的野心经济向市集经济的改变,从僵化的统已经管向活泼的按需分派发展。
传统的云工作资源经管基本上沿用了传统企业IT的念念路,假定总共责任负载齐是相似的,不错用统一的圭臬进行经管。这种步履在处理传统的Web工作或数据库应用时还算有用,因为这些应用的资源需求相对褂讪和同质化。但AI工作,止境是大语言模子工作,十足颠覆了这些假定。
AI工作的责任负载具有极强的动态性和异质性。用户的央求可能是浅薄的致意,也可能是复杂的推理任务;可能需要处理几十个字符,也可能需要处理数万个字符。这种种种性条件资源经管系统必须具备更强的适合性和智能性。HeteroScale恰是在这么的布景下应时而生的。
该系统最首要的理念革命是"调解性优于效落拓"的想象形而上学。在传统系统中,经管者平凡追求单个组件的最大摆布率,觉得每个GPU齐应该尽可能致力。但HeteroScale意识到,在复杂的说合系统中,举座的调解性比单个部件的致力进度更首要。一个略微"闲置"的预处理GPU如果能保证生成GPU无谓恭候,那么这种"闲置"试验上是有价值的。这种系统性念念维让HeteroScale随机完了更高的举座服从。
另一个首要革命是"目的即计谋"的步履论。传统系统时时依赖工程师的教会和直观来设定诊治计谋,但在AI工作这种快速发展的领域,教会时时是不够的以致是误导的。HeteroScale团队通过大范畴的数据分析,让数据我方"讲话",发现了许多反直观的划定。比如,生成阶段的GPU使用率目的是误导性的,这个发现可能让许多依赖传统监控步履的工程师感到不测。
系统还体现了"拓扑感知"的首要性。在云绸缪的早期阶段,公共时时忽视物理集合拓扑对性能的影响,觉得云便是一个扁平的资源池。但跟着应用复杂性的增多,止境是在需要多半数据传输的AI应用中,集合拓扑的影响变得至关首要。HeteroScale将集合拓扑当作诊治决策的一个中枢要素,这种作念法在云原生社区中照旧比较稀有的。
从工程完了的角度,HeteroScale还展示了"渐进式优化"的首要性。系统莫得试图一次性惩办总共问题,而是识别出最重要的瓶颈,优先惩办最首要的问题。在P/D辩别、异构硬件、集合拓扑三个主要挑战中,系统辖先聚焦于找到正确的诊治目的,然后徐徐完善硬件匹配和集合优化功能。这种步履不仅镌汰了开发风险,也使得系统更容易在坐蓐环境中部署和调试。
六、面向将来:HeteroScale的发展标的和启示
照管团队在论文中明确忽视了HeteroScale的三个主要发展标的,每一个齐代表着AI工作经管领域的前沿探索。
第一个标的是探索愈加通用和智能的监控目的。面前的系统主要依赖decode TPS这一个中枢目的,天然已经比传统步履有了很大更动,但照管团队意识到,跟着AI模子和应用场景的种种化,可能需要愈加精致化的目的体系。他们野心深入挖掘各式AI推理引擎(如vLLM、TensorRT-LLM、SGLang等)的里面统计信息,寻找随机跨模子、跨硬件、跨责任负载的通用目的。这种探索就像寻找生物医学中的通用生物标记物一样,一朝找到,就能大大简化不同场景下的系统配置和经管责任。
第二个标的是完了动态P/D比例调整。面前的系统使用固定的预处理与生成阶段比例,这个比例通过压力测试和历史数据细则。但试验应用中,用户行径会发生精巧变化,比如用户发问的复杂进度可能渐渐增多,或者盼愿的恢复长度可能发生变化。这种"责任负载漂移"表象在历久启动的系统中很常见。将来的HeteroScale将随机检测到这种变化,并自动进行小幅度的比例调整,就像一个有教会的餐厅司理随机证据主顾偏好的变化微调厨房主说念主员配置一样。
第三个标的是开发KV缓存感知的诊治计谋。KV缓存是AI工作中一个相等首要但时常被忽视的组件,它存储着对话的历史潦倒文信息。面前的系统主要珍贵绸缪资源的分派,但跟着对话变得越来越长,KV缓存的经管变得越来越首要。将来的系统将随机班师监控缓存射中率、落幕统计、内存压力等缓存相干目的,并将这些信息纳入诊治决策中。这就像一个智能的藏书楼经管系统,不仅要经管有瞻念看室的座位分派,还要优化竹素的存储和检索计谋。
除了这些时候发展标的,HeteroScale的见效还为总共这个词AI基础设施领域提供了几个首要启示。
率先是"数据驱动决策"的首要性。在AI工作这个快速发展的领域,许多传统的最好实践可能不再适用。HeteroScale团队通过大范畴的坐蓐数据分析发现了许多反直观的划定,这提示咱们在想象复杂系统时,弗成十足依赖教会和直观,而需要让数据辅导决策。
其次是"系统念念维"的价值。AI工作不是安详组件的浅薄组合,而是一个复杂的说合系统。优化单个组件的性能并不一定能提高举座服从,有时以致可能产生负面服从。HeteroScale的见效在于它长久从系统举座的角度念念考问题,追求的是全局最优而不是局部最优。
临了是"渐进式革命"的颖慧。面临复杂的挑战,HeteroScale莫得试图一次性惩办总共问题,而是识别出最重要的瓶颈,徐徐更动。这种步履不仅镌汰了时候风险,也使得系统更容易在试验环境中部署和负责。
说到底,HeteroScale代表的不单是是一个时候惩办决议,更是一种面向将来AI工作的经管理念。跟着AI模子变得越来越复杂,应用场景越来越种种化,这种智能化、自适合的资源经管步履将变得越来越首要。关于那些正在构建或运营大范畴AI工作的团队来说,HeteroScale提供了一个很好的参考框架和实践指南。而关于平素用户来说,这项时候的最终价值体面前更快的响应速率、更褂讪的工作质料,以及可能更低的使用资本。当咱们享受AI工作带来的便利时,背后有像HeteroScale这么的智能系统在寡言保险着工作的高效启动。
Q&A
Q1:HeteroScale是什么?它主要惩办什么问题?
A:HeteroScale是ByteDance开发的智能GPU诊治系统,成心惩办大范畴AI工作中的资源自动分派问题。它主要惩办三个中枢问题:不同类型GPU的最优匹配、集合传输瓶颈优化,以及预处理与生成阶段的东说念主员配比均衡。
Q2:为什么传统的GPU使用率目的在AI工作中会产生误导?
A:在AI工作的生成阶段,即使责任量很轻,GPU使用率也会保执很高,因为GPU需要执续负责多半潦倒文信息在内存中。这种"失实忙碌"让系统经管者误判资源需求,导致配置失衡。
Q3:HeteroScale在试验坐蓐中取得了什么服从?
A:在ByteDance的坐蓐环境中,HeteroScale经管着数万张GPU,每天处理数万亿个token。系统让GPU平均摆布率提高了26.6个百分点,举座GPU使用量减少了41.3%,同期保执了总共工作质料条件。