手机游戏走向主机级画质,手机芯片做好准备了吗?
和手机AP SoC发展更早期,不同GPU性能与能效可拉开差距的时代不同,当代几款主流手机芯片的GPU性能已经咬得非常紧:标志性事件是iPhone的GPU性能、能效神话于前些年走向彻底终结——电子工程专辑在2021年底天玑9000发布之时...
2021年底、2022年初的这段时间之所以特别,就在于Mali GPU开始了性能与能效的狂飙,抛开了不及苹果GPU、高通Adreno的帽子;与此同时,联发科借助天玑9000成功步入旗舰手机市场——虽然GPU并非其中唯一因素......
随着手机GPU竞争进入白热化,主流市场参与者普遍已经从单纯的图形基准测试跑分对阵,走向对低功耗、高画质的追逐,乃至走向图形技术标准与生态的构建能力竞争。
比如说最近联发科发布天玑9500,在谈GPU的时候,除了宣传3D Steel Nomad Light(SNL)跑分和主流手游的运行帧率,也将更大篇幅放在了满帧前提下的功耗水平、光追效果、对虚幻引擎5.5 Nanite、5.6 MegaLights技术的支持上;乃至探讨转向Vulkan的价值、光追生态构建、与游戏引擎游戏工作室的合作等。
这表现出的就是手机GPU市场正步入成熟阶段。这篇文章我们就以最新发布的天玑9500及其GPU为依据,尝试展望未来1-2年内的手机GPU及手游发展方向:明后年的手游市场可能会更加波涛汹涌。
性能过剩了!还加重手机GPU投入?
按照惯例,先来看看天玑9500芯片的配置及其与天玑9400的对比:
这颗芯片值得探讨的部分很多,比如说继续采用全大核设计的CPU、超性能+超能效双NPU架构及相关AI的系统设计,有挺多技术点值得单独探讨。但本文主要专注于其中的GPU和图形渲染部分——电子工程专辑将就芯片的其他部分另外撰文。
就天玑9500所用的Mali G1-Ultra,Arm早前提供的数据是它相比上代GPU的图形基准与游戏性能提升约20%、每帧功耗降低9%、光追性能提升2倍(vs 14核Immortalis-G925 MC14)。
天玑9500在3DMark SNL测试中的峰值性能相比上代提升33%,且在达到天玑9400同等峰值性能的情况下功耗下降42%。可能大部分人对这个数字是没有明确感知的,再来看一组联发科公布的游戏实测数据:
在全高画质的30分钟持续测试中,《和平精英》《暗区突围》《三角洲行动》皆“超高帧全程满帧”(144fps);《王者荣耀》全高画质30分钟平均120fps;《原神》全高画质30分钟平均60fps...都是这些游戏的“满帧”状态。
在不考虑手机系统设计个体差异的情况下,图形负载最重的游戏均可在游戏全程保持长时间满帧——“满帧”这个词实际是从天玑9200时代就常听联发科提起的。去年的联发科称手机已经走到了“后满帧时代”——言下之意是当代手游实现游戏“满帧”,对天玑旗舰手机芯片而言都不成为一个问题。
还是抛开手机系统设计的个体需求不同,在这种情况下,手游玩家究竟为什么还要追求更好的手机GPU,或者说手机芯片厂商为什么还要持续投入到手机GPU之中呢?
去年联发科的解释是,从追求性能满帧,到满帧前提下尽可能低的功耗——这自然也是近两年天玑9000系列芯片的主题之一。比如前文已经提到,在SNL测试中天玑9500在达到天玑9400峰值性能的情况下,功耗节约42%;《王者荣耀》达成满帧的情况下,功耗下降19%;《原神》满帧时功耗下降将近10%......联发科称其为“满帧低功耗双满贯”。
功耗和发热降低,当然就能做到游戏更长时间的满帧。不过我们认为这不是联发科持续投入手机GPU的最重要原因...
手游画质面临大幅提升!GPU危?
有关手机游戏性能需求变化,Arm前不久给出了两组更具体、可感知的数字:
(1)虚幻引擎5移动版,每次版本更新(尤其UE5.0-5.3)对性能的要求实际都有大约7%的提升;且如果从虚幻引擎5.3移动版迁往虚幻引擎5.4 SM5的桌面级延后渲染器(deferred renderer),GPU负载会增加2-3倍,这就给跨端游戏在手机上游玩造成了巨大压力;
(2)从2021年到2023年,《原神》这款手游在不同版本的更新中,给GPU造成的压力增加了28.5%;而《绝区零》的问世又在《原神》的基础上给GPU新增了10%的负载压力。所以总的来说,手游也正走向更高的图形计算复杂度,或者从体验角度来看更高的画质。
联发科在天玑9500发布会上多次提到了手游画质向“3A”看齐,要带来“主机级爽感”。虽然听起来很夸张,但这其中有个非常明确的依据:2026年会有越来越多的“跨端”游戏问世。所谓的跨端游戏,即同时面向PC、主机、手机等设备类型的游戏。
虽然当面向手机时,画质要求不会高到PC的程度,但依旧会给手机GPU带来极大的负担;而且过大的画质差距,会给玩家在不同平台上带来割裂的游戏体验。
有关手游画质提升,今年联发科主要谈到了3个话题:光线追踪,虚幻引擎5.5 Nanite,虚幻引擎5.6 Megalights——在此一一展开简单聊聊。
光线追踪技术本身想必不用再多谈了,电子工程专辑,这是个能够实现更真实光影效果、但也更吃资源的技术——即便对PC及游戏主机而言,光追的算力需求都是巨大的。天玑9200可被视作首个做到了硬件级光追加速的天玑SoC,也正式开启了天玑SoC对光追技术的探索。基于联发科的数据,天玑9300、天玑9400则让光追游戏走向了60fps和90fps。
天玑9500所用Mali G1-Ultra GPU的shader核心换用RTUv2(第二代光追单元),让本代GPU实现了超过2倍的光追性能提升。在3DMark Solar Bay Extreme光追基准测试中,天玑9500的跑分相较天玑9400提升了119%(2573分 vs 1173分),天玑9500把光追游戏带到了120fps时代——在《暗区突围》游戏中,天玑9500就实现了开启光追效果后的120fps帧率。
不过在我们看来更重要的是,联发科特别提到天玑9500已经实现了对所谓完整Ray tracing Pipeline(光线追踪管线)的支持,达成真正意义上“主机级”光追。这里的Ray tracing Pipeline应该是指Vulkan的VK_KHR_ray_tracing_pipeline,后文在谈生态建设的部分会更详细地聊到。总之对Ray tracing Pipeline的支持意味着手游的光追的确在向桌面PC与主机看齐——这同样是基于联发科说“2026年更多跨端游戏会将PC端的光追要求带到移动端来”这一基础判断。
有关MegaLights动态光源方案:这是虚幻引擎5.6引入的直接光照系统,开发者可基于这项技术在场景中引入大量动态光源——着眼采用重点采样(importance sampling)之类的方案降低开销和资源需求,且可与硬件光追或虚拟阴影贴图(virtual shadow maps)做集成。
联发科对该方案的解释是“在同等算力预算下,可增加数百个动态光源,搭配高数量级的几何模型,达到真实光影效果”。所以未来的手游,“会有越来越多的动态光源”,即便图形技术本身在尝试提升效率,也“需要软硬结合才能支撑更多的动态光源,实现实时光影的交互”——即成为天玑9500的技术亮点之一。
从电子工程专辑获悉的资料来看,在某些主打采用MegaLights特性、多光源再加上光追的实验室测试场景中,Mali G1-Ultra有机会实现相较Immortalis-G925大约40%或更高的帧率提升。显然这是个在未来手游中很令人期待的技术特性:画质更好,且天玑9500提供了算力支撑。
还有一项,相关虚幻引擎5.5之中引入的Nanite——用联发科的话来说,在同等级算力预算下,“渲染几何数量提升数十倍”;实现“超高数量级几何模型”支持,“达到PC级细节表现”。相较于传统网格渲染,Nanite是将几何体切成clusters,在对应分辨率下仅stream画面中可见的cluster,然后通过硬件光栅化和计算shader实现更高效的渲染。
简单来说,就Nanite特性本身,这是个在尽可能不牺牲性能的情况下增加画面细节的方案。值得一提的是,Nanite当然也可以和MegaLights、Lumen、硬件光追之类的特性结合,这也某种程度上令Nanite不止是个几何系统,也作为光照管线的重要组成部分存在。
如今像《原神》这样的游戏,“画面平均大概60-80万片三角形在渲染”,这个数量级对达成所谓3A级画质是不够的。“天玑9500搭配虚幻引擎5.5 Nanite,可以渲染近千万级的三角形,做到主机级画质”,甚至在联发科展示的demo中接近于真实照片的画质水平。
基于这三个技术点的改进和支持,我们大致可以预见明后年的手机游戏可能在画质上表现出飞跃,并因此对手机GPU提出更高的性能要求。虽然这些并非手游进化的全部,但基本可以解释为什么手机GPU厂商在已经达成满帧且保持功耗降低的基础上,还在追求性能更强的GPU——做到所谓“主机级爽感”“3A画质”的同时,保持“极致流畅”。
“极致流畅”的技术点,走向生态竞争
说完画质我们再回头看看游戏性能,尝试追究天玑9500是如何达成本文第一部分提到的“满帧低功耗双满贯”,以及现在和未来的天玑芯片在应对本文第二部分提到的未来3A画质游戏时,有没有机会真正满足性能和能效需求。对这个问题的探讨,也有助于我们洞见,当代手机GPU的竞争已经不再局限于GPU微架构这一常规意义上的赛点了。
联发科就天玑9500提到了让游戏实现“极致流畅”的几个关键点:
(1)GPU本身的性能与能效提升数字之外,微架构方面在于GPU Dynamic Cache动态缓存技术的引入,以及更多头部游戏转向了Vulkan API;(2)算法技术上,涵盖“多线程降载”“天玑调度引擎2.0”,以及“天玑倍帧技术”。这其中的很多组成部分,已经相关于芯片厂商的软件与生态构建能力了,在我们看来,反映的是移动GPU竞争的白热化。
比如近期手机芯片热词之一的Dynamic Cache动态缓存,毕竟iPhone 17新品发布会上苹果也才刚提过这个词。联发科方面表示,在GPU Dynamic Cache技术上已经投入了3年:“传统意义上的缓存与内存交互,须由平台底层软件来做缓存和内存的控制与分配,很难达到系统效率最优。”
“所以我们将缓存能力通过最新的Vulkan扩展向开发者开放。那么游戏开发者就能控制缓存使用的大小、生命周期。”联发科认为对有技术力的开发者而言,他们对于如何让缓存使用高效化是最有发言权的,借助Dynamic Cache就能达成能效的大幅优化。比如说《绝区零》借助这项优化,获得了600MB/s以上的带宽收益——随之游戏更省电(↓60mA)、少发热(↓1℃)。
听起来,这种可由开发者管理缓存使用的技术方案和苹果的dynamic cache还是存在差异的,只不过目标应该是一致的:加强存储敏感型渲染负载的效率——可见这也是未来移动渲染技术的大方向。
其次是头部手游普遍在转向Vulkan API。今年3月份谷歌宣布正式令Vulkan成为Android的官方图形API。其实手游转向Vulkan,在我们看来是相当自然的事:因为一方面这是个能提供更精细性能优化、低层级控制的图形API,对多线程也有更好的优化,具备了诸如光追等一系列现代化图形特性,更重要的是这是个跨平台API——符合游戏走向跨端的趋势。
“我们的GPU也做了不少硬件侧的同步,几代GPU设计都在尝试满足Vulkan标准和规格。”转向Vulkan的游戏,在天玑平台上立刻就能获得5%的性能提升或功耗下降。”换用Vulkan API能立刻达成性能或能效收益,自然也成为Vulkan将更进一步普及的依据。
而有关天玑9500上的算法技术优化,包括多线程降载、天玑调度引擎2.0、天玑倍帧技术——这几项更进一步地涉及到了合作与生态构建,也就是文首所说的,手机芯片GPU的竞争已经走到了生态竞争的高级阶段。
除了“天玑调度引擎2.0”这类不仅相关游戏的特性通过分配系统前后台资源据说能获得超过10%的性能收益,以此处“多线程降载”为例,这看起来就是个更大程度利用好CPU多核资源的技术方向。联发科谈到,在过去几年与游戏工作室合作的过程中,发现游戏“最重载的逻辑线程可能会吃掉大核资源、1-2个大核被占满,其他CPU核心则没有在工作。”
基于此,联发科与第三方游戏工作室进行深度合作,协助他们将游戏内容做多线程拆分优化,也就能充分发挥天玑芯片CPU的多核优势,提升效率。比如他们举例提到《鸣潮》的最新版本借助这方面的优化,实现6%的负载降低。
而天玑倍帧技术也是联发科推了好些年的游戏插帧方案,这次天玑倍帧技术“进入到3.0”。联发科告诉我们,更早的天玑芯片GPU插帧方案实现的是从30到60帧的转变——在《崩坏:星穹铁道》这样的重载游戏中,可实现40%的功耗收益;“天玑倍帧技术3.0则是做到60到120帧的插帧——《逆水寒》《永劫无间》等游戏都会陆续导入,平均实现30-40%的功耗收益。”
从光追进化,看手机GPU的发展
这些都要求芯片厂商在软件算法上投入,同时与GPU IP厂商、游戏引擎、游戏开发者合作。有关图形渲染与游戏技术的生态构建,这里我们再额外举个更有说服力的例子:移动平台的实时光线追踪技术。
细数起来,联发科在手机AP SoC发布会上提光线追踪至少已经有4年历史了,技术和生态投入更久。早在天玑9000发布会上,话题——只不过当时还只是软件级光追,那会儿的Mali-G710已经可以通过软件来模拟光线追踪,虽然也就止步于“可以”。
天玑9200则正式成为联发科达成手机芯片硬件级光追的起步,这颗AP SoC的GPU开始内置专用的RTU单元,相较软件实现的光追性能提升了3倍。如果你对电子工程专辑早年的报道还有印象就知道,2022年的媒体沟通会上,——即早于天玑9000的发布。
Ray Query(VK_KHR_ray_query)相较于这次天玑9500已经支持的ray tracing pipeline完整管线,是个更容易融入到现有渲染器中的方案,对硬件资源的要求也更低、兼容性和灵活性更好。基于此当时联发科就已经为Vulkan 1.3支持的raytracing API做好了准备。联发科也因此在天玑9200芯片的基础上,搭配VRS(可变速率着色)等技术方案,开启了他们的第一代手游光追技术,走向了光追游戏的30fps时代。
天玑9300在天玑9200的基础上,更多的GPU核心堆料让光追性能提升了46%,同时借助VRS性能86%的提升,当时联发科宣布天玑9300在3DMark Solar Bay光追测试中拔得手机芯片的头筹;生态方面在达成更多光追游戏支持的同时,也实现了Unity、虚幻、Messiah三大引擎的覆盖。
值得一提的是,联发科同期宣布与虚幻引擎、Arm合作,在虚幻引擎5的Lumen之中融入了Vulkan Ray Query + “桌面级渲染Shader Model 5”;在游戏方面,于《暗区突围》应用全局光照Smart GI技术,做到了“首发支持《暗区突围》60fps光追”。所以联发科说,天玑9300让光追游戏步入到了60fps时代。
去年的天玑9400除了实现光追性能40%的提升,亮点在于,降低了光追计算过程中shader的负载——OMM也被联发科视作移动端与PC游戏的交集之一,当时Ada Lovelace也才刚刚实现对OMM的支持没多久。据说《暗区突围》在加入这一特性后,在帧率提升50%的同时,还降低了10%的功耗。
来到最新的天玑9500,除了shader核心之中的RTUv2第二代光追加速单元换新(目前已知架构调整包括从所谓packed ray model转向了single ray model)——据说这也是联发科与Arm合作推动的成果——实现光追性能翻倍,“率先支持120fps光追”之外,更重要的就是前文提到的转向对ray tracing pipeline的完整支持,真正实现完全可编程、硬件加速渲染管线的复杂光线追踪,实现更逼真的光影效果,对潜在的跨端游戏做到更好的支持。
联发科表示,后续还将投入更多资源去构建光追生态。光追虽然只是天玑手机芯片GPU进化的一个组成部分,且光追游戏尚未大举入侵移动平台,但这个进化历程却在部分反映手机GPU生态竞争激化、要求手机芯片厂商提前数年布局。同时,展现出手游行业上下游的整体进步,当然还有联发科自身作为手机AP SoC目前最大份额的市场玩家持续不断的投入。
所以在普通用户只是看到每代手机芯片在图形渲染性能方面提升百分之多少的数字,甚至可能认为GPU这类加速芯片不过堆料+制造工艺进步尔尔,游戏性能与能效提升的背后,却有着芯片企业、IP供应商、游戏引擎、游戏开发者共同的推进与努力。
好在从天玑9500的发布与技术点来看,明后年要面世的游戏大概率会实现画质、体验的跃升,而以天玑9500为代表的手机芯片显然已经准备好了。
最后再透露个信息,虽然联发科没有明确提到,但我们猜测面向手游的“DSLL-like”AI超分技术,乃至更多深入图形渲染管线的neural shading技术已经在联发科的实验室里了。这也让我们更期待未来的手机游戏可实现的画质与效率突破……