随着NVIDIA RTX 40系列、AMD RX 7000系列的陆续登场,新一轮显卡大战渐入高潮。那么,“后发制人”的AMD RX 7900系列有什么特异之处呢?
近日,被业界誉为“RDNA架构技术传奇的”AMD Radeon技术事业部工程研发高级副总裁王启尚(David Wang)先生,接受了快科技的专访,畅聊了多个有关AMD RX 7900系列显卡的前沿技术话题。
王启尚在美国华盛顿大学获得电子工程硕士学位,曾先后就职于LSI Logic、Axil、SGI、ArtX等半导体芯片企业,2000年加入ATI,2006年随着ATI被收购而进入AMD。
王启尚具备极其丰富的图形芯片设计、开发与管理经验,在AMD(ATI)众多GPU产品的研发中起到了不可替代的领导作用,尤其是RDNA系列GPU架构,以超高能效而闻名。
↑↑↑王启尚
——HYPR-RX:一键开启大礼包
AMD Adrenalin驱动软件中提供了丰富、强大的功能,但事实上,很多游戏玩家拿到卡之后直接就开始玩了,很少会去仔细研究一些特别的功能会带来什么样的好处,造成浪费,也不利于发挥显卡的全部实力和潜力。
为此,AMD开发了HYPR-RX,将Adrenalin驱动内的多个功能与技术整合在一起,包括Radeon Boost性能加速、Radeon Anti-Lag抗延迟、RSR超分辨率等,可以一键开启。
这样,它们就能协同,由此能够降低延迟也能提供相比原来设置最高达85%的更强性能。
该功能预计2023年上半年正式上线,目前仅支持RX 7000系列显卡,暂时不会支持RX 6000系列或更老的型号。
——FSR:从超分辨率到补帧
截止10月底,AMD FSR超分辨率技术已经获得超过216款游戏的支持,其中85款已支持FSR 2。
FRS技术的下一个版本是FSR 2.2,重点进一步改善了画质,比如减少快速移动物体的重影。
它和FSR 2.1/2.0同样基于时域放大算法,不需要依靠AI或者专用的AI硬件,就可以实现出色的画质和性能。
据介绍,AMD和3DMark所属公司UL Solutions也有很好的合作。目前,3DMark有针对NVIDIA DLSS和Intel XeSS的功能进行测试,正在扩展功能测试项目,其中就会包括一项专门针对AMD FSR的测试,它将使用FSR 2.2帮助用户在他们的硬件上进行FSR的性能和图像质量的对比。
王启尚透露,在缩放技术上,AMD的下一个重大版本将是FSR 3,支持AMD Fluid Motion Frame补帧技术,预计可带来比FRS 2最多2倍的帧率,技术上会有很大的优势。
FSR 3技术预计将在2023年推出,更多细节会在后续出。
从目前的情况看,笔者认为AMD FSR 3不再是传统的超分辨率缩放技术,而是全新的帧生成技术,通过AI计算、匹配直接在渲染帧之间插入新的帧,从而大幅提升帧率,并保持同样甚至更好的画质。
这样一来,FSR 3同样也不会取代 FRS 2.x,而是并行发展,游戏也可以同时支持,让玩家根据自己的需求和喜好来使用。
——多媒体:支持AV1、赛灵思AI助阵
多媒体一直是AMD GPU的强项,视频编解码、媒体串流等方面每一代都有创新技术和应用。
RDNA3架构集成了全新的媒体引擎,支持AV1视频编解码,其内部的频率也增加了1.8倍,所以基本上能够将一些编码和解码的时间相比上代节省一半。
AMD还在其中集成了赛灵思开发出的内容自适应机器学习技术,能够提升文本内容在编码解码时的质量,目前只适用Windows 11上的DX应用程序,且目前它的分辨率只支持1080p分辨率及以下。不过王启尚表示,未来将继续加强该技术并扩展至比较高的分辨率。
该技术是AMD高级媒体框架(AMF)的一部分,基于着色器,改进编码时文本的质量,不过仅支持Windows 11 DX应用,且最高支持分辨率为1080p。
王启尚还详细介绍了AMD的两种串流新技术,都集成在AMD录制与直播中。
一是“串流预分析”(Pre-Analysis),可以分析视频帧中每个区块(block)的时间活动和空间复杂性,并提取其他视频属性,比如场景变化、静态场景、运动强度等。
根据所使用的前向缓冲区的深度,该技术可以在实际编码之前,分析最多达40帧画面,让编码器提前得知未来帧的特征,从而采取主动行动,提升视频画面质量。
此外,它还可以提高编码效率,为视频流中与其他块有着更高相关性的块提供更多的码率。
还有“串流预滤波”(Pre-Filtering),一个低通感知保边滤波器,可以去除帧画面中视觉上不重要的细节,而过滤强度可以根据视频内容、目标码率自适应,最终能在同等码率下实现更高质量的编码。
——功耗:专注每瓦性能、小芯片设计有个最大优势
性能之外,用户对于CPU处理器、GPU显卡的功耗问题越来越重视,毕竟,节能减排是社会大趋势,是绿色可持续发展的根本。在这方面,高能效的RDNA架构正好契合。
王启尚表示,提高性能以满足不断增长的现代游戏需求是当下、未来的重点,需要不断改进芯片的设计和架构,但是提高性能的时候,一定又会产生更多的功耗,所以必须思考如何改变核心架构。
RDNA3就充分体现了AMD在能效即每瓦性能上所花费的大量心思,在RDNA2 提高54%的基础上,再一次提高了54%,显示了AMD有能力、有决心继续打造更节能、更安静、更低温的显卡。
比如RX 7900 XTX,对比上代RX 6950 XT,提供了大幅提高的性能和大量的新体验,但功耗只增加了25W。
更进一步,AMD在设计RX 7900系列显卡时,选择了性能、功耗的更佳平衡点,希望带来更有能效的显卡,不需要额外的转接头,两个标准的8针电源接口即可供电。
而说到功耗控制,就绕不开制造工艺,其越先进,就可以带来越好的能效。
RX 7900系列使用的是台积电5nm制造工艺,而竞品RTX 40系列使用的是所谓台积电4N。
对此,王启尚表示,AMD和台积电在制造工艺优化方面有着很深的合作关系,RX 7900系列基于AMD与台积电合作开发且调优的5nm工艺,具有更高的功率、性能和更小面积。
对其他厂商可能使用市场叫法来命名其5nm制程工艺,王启尚表示不发表任何评论。
此外,RX 7900系列第一次引入了chiplet小芯片设计,就像AMD锐龙、霄龙处理器做的那样。
王启尚提出,chiplet设计的最大优势,就是便于选择使用最合适的制造工艺完成适当的工作,比如计算核心使用比较昂贵的5nm工艺,实现出色的每瓦性能,I/O核心、Infinity Cache高速缓存则使用成熟的6nm工艺,最终在每个价位上实现更强的性能。
——竞争:RX 7900 XTX的真正对手是它!
有趣的是,我们的第一反应是RX 7900 XTX要竞争RX 4090,不过王启尚表示,从市场定价来讲,RX 7900 XTX对标RTX 4080是更合适的,有着额外的8GB GDDR6显存、更宽的384-bit位宽、领先的DisplayPort 2.1技术等。
顺带一提,王启尚还确认,RX 7900系列显卡没有着色器执行重排序(SER)。
在他看来,在光线追踪的实现中,将光线遍历和光线着色混合在一起是没有必要的。他表示:“你可以看到从RDNA 2到RDNA 3,在光追上面的比较,在性能上面其实有很大的进步,所以我们觉得这样混在一起对我们架构来说是没有必要的。”
如果遍历的速度很快,而着色成本又很高,那么这种做法显然是十分有效的,可以提高着色的利用率,并分别处理遍历与着色的需求。
可以说,RDNA3是王启尚带领团队亲手培育养大的又一个好孩子,从种种设计和特性来看已经展现出了不俗的实力,更加让我们期待它解禁上市后秀出真正的实力。
尤其是在各种高端芯片产品功耗不断膨胀的情况下,RDNA3依然有着如此出色的能效,以更小的代价实现更好的性能,带来更好的体验,值得整个行业思考和借鉴。
↑↑↑王启尚手持RX 7900 XTX
标签: 王启尚