芯片战场丨英伟达的“绝世武功”

21世纪经济报谈记者倪雨晴深圳报谈

当环球齐在揣摸英伟达还有几许增长后劲时，好意思东期间7月13日，英伟达股价再度大涨4.73%，市值达到11356亿好意思元（约合东谈主民币81071亿元），再创历史新高。

“当今公司大部分资源齐统一在大模子建造，最近咱们采购的一批英伟达GPU就地到货，里面早已分派完结。”近日，一家AI企业职工向21世纪经济报谈记者面容了芯片供应的病笃之势。

脚下，算力产业链正濒临新一轮“缺芯”。产业链上的企业们要登上超高算力的舞台、要在AI江湖中安身，英伟达GPU是稀缺的入场券。

当A100和H100因为好意思国禁令而停供后，英伟达从头定制的800系列在国内被厂商疯抢，100系列的库存GPU价钱也沿路走高。有产业链东谈主士告诉记者：“本年A100的价钱涨了一倍傍边，而一台带NVLink的八卡劳动器，客岁还不到100万元，当今可能需要170万元。”

更令东谈主错愕的是，价钱兴盛之下芯片仍难求，另一位产业链东谈主士向记者示意，英伟达本年的GPU芯片需求或是往年的7、8倍，火热进度可见一斑。

ChatGPT澈底引爆东谈主工智能后，AMD、Intel、以及一众GPU企业也一同上阵竞赛，然而短期来看英伟达地位不可替代。

在多位AI从业者看来，面前大模子的教化需求过于进攻，对性能的条目也很高，而GPU的适配和生态滚动齐需要很耐久间，因此目前环球齐优先选择英伟达，和其他厂商的测查考据也在进行中。

一场新的算力之战依然拉开帷幕，如果说算力是一个江湖，那么此刻英伟达就是别称绝世妙手。它身怀加速狡计的绝技，尤其在AI战场上一骑绝尘，似乎每一次齐能精确地踏在海浪的节拍上。从游戏PC阛阓、到深度学习的崛起、到云狡计的普及、再到生成式AI的莅临，英伟达的技巧不战而胜。

干系词，英伟达首创东谈主黄仁勋在2017年选择媒体采访时却说谈：“15年来，我讲的齐是吞并个故事。我险些齐不必修改我的幻灯片。”他说，他量度不到东谈主工智能何时来临，但无比信服图形狡计的优厚性。

回头看，英伟达早已超越了GPU自身的主意，AI成为最大的标签，算力的绝世武功撑起了新的万亿帝国。

起步

1993年，终年身披黑夹克的黄仁勋不顾分析师的劝戒，动荡决定和伙伴创立英伟达。那一年，黄仁勋刚好30岁，他面对的阛阓环境并不乐不雅，在九十年代，图形处理器、或者说图形加速卡畛域群雄混战，上百家企业在场上兵戎相逢。

更要紧的是，彼时图形加速卡并未受到酷好，聚光灯齐投射在CPU上。在1993年前后，满腔温顺的CPU战场上，算力主角是老牌传闻英特尔和AMD，双正派在酣战。

1991年英特尔成为其时全球最大的半导体企业，1993年英特尔又推出了80586芯片，为了与AMD芯片进行区别，又将其定名为奔腾；1991年的AMD推出了Am386微处理器系列，冲破了英特尔的阛阓掌握，在1993年，AMD又推出Am486微处理器。

而在英特尔和AMD为代表的x86架构的CPU以外，苹果和Arm也依然联手干预芯片界。1993年，苹果推出Newton MessagePad（牛顿机，PAD始祖），就初度搭载了Arm架构处理器。与此同期，苹果还和IBM、摩托罗拉结成定约，来顽抗“Wintel”，三者统一研发出芯片PowerPC，在1994年用于苹果的台式机上。

正如黄仁勋在近期的一场采访中所言：“30年前，个东谈主电脑创新才刚刚运转，微处理器CPU运转升起，其时环球以为CPU是处理狡计的最佳模式。”然而，黄仁勋则一直以为需要有加速狡计。

其后，环球齐逐渐知谈图像处理、视频处理、游戏处理、狡计处理等等齐需要GPU，不外其时英伟达仍在苦苦寻求技巧的应用阛阓。

庆幸的是，英伟达很快找到了狡计机图像和电子游戏团结的场景。在研发经过中，一家日本游戏公司世嘉向英伟达投来橄榄枝，喜跃提供给700万好意思元的资金。

视频游戏的风口似乎就在目下，其时PC和游戏是最主要的耗尽电子阛阓，英伟达赶上了班次。然而旷日长期，英伟达在3D图像技巧上选择了特别的道路，不行兼容微软制定的新主流法式，初代居品NV1最终销量惨淡，眼看着为世嘉研发的芯片也要濒临着被淘汰的场面。

如果不行完成芯片开发，公司将堕入绝境。黄仁勋在日前的演讲中也提到了创业初期的这次危境，最终他和世嘉阐扬实情，而世嘉真实欢跃支付研发用度，援助了在倒闭边际逗留的英伟达。

资格过此番周折后，黄仁勋在1997年冷落了业界知名的“黄式定律”，其量度显卡性能每六个月就栽种一倍，远超摩尔定律的速率。已往这更像是黄仁勋对外的一次宣言，是为我方定下的法式和方针，而当今这依然变成了推行。这亦然黄仁勋在演讲中屡次说起的“跑得快”，他说当谈路很万古，跑得快是独一的政策。

时运

很快，英伟达迎来更大的转化。

1997年，英伟达推出的新款图形加速芯片RIVA 129得胜逆袭，开售后四个月内出货量就特出100万台。1998年，英伟达又和台积电牵手配合，在图形加速畛域更进一竿，在竞争无比浓烈的PC和游戏阛阓上，英伟达快跑干预了决赛圈。

1999年，英伟达胜利上市，并率先冷落了GPU主意，推出全球首款GPU——Geforce256。这是一款要害性居品，至此，GPU依然不单是是扶植CPU的变装，其出色的并行狡计智商将提供更强盛的算力。

2000年，微软Xbox搭载了来自英伟达的GPU，英伟达还在2002年底和索尼达成了配合，为游戏主机PlayStation3提供知道芯片。不错说，接下来英伟达在游戏界大杀四方，天然这其中也历经了兼并收购、大鱼吃小鱼，起起落落，最终才杀出重围。

在游戏、PC阛阓上登顶的经过中，英伟达也一直在寻找新的场景，曾经在华贵的手机阛阓糜烂而归，也濒临着PC阛阓莫得那么性感的推行。干系词，在2010年后，东谈主工智能、云狡计的海浪在逐渐围聚，从自动驾驶到神经网罗深度学习，GPU展现出了雄壮而专一的加速狡计智商。

深度学习崛起的经过中，GPU提供的卷积运算、并走时算等秉性，恰好不错温顺AI狡计的需求；在全球云化的趋势之下，数据中心的狡计背后齐需要GPU提供算力支握。

英伟达又一次在新畛域中崛起，就像是它正好有绝世的武功，武林江湖环境变换，它却长期能以独门心事开启新路。谁能意料，其后的事实讲授，GPU不仅能用于AI、还能用于挖矿。要知谈，AI的主意在AlphaGo兴盛后堕入千里寂，恰逢区块链站优势口，GPU凭借矿机需求沿路走高。

众所周知，而后区块链热度下滑，猖獗的矿机需求回落，英伟达的股价也应声而落，干系词到了2022年末，东谈主工智能重返科技舞台中心，生成式AI成为英伟达市值的新动能，英伟达的居品亦然生成式AI的主引擎。

潮起潮落间，黄仁勋也从外界眼中的“游戏小子”成为“AI教主”。沿路以来，英伟达收拢了狡计开荒需求的要害时机，从图形渲染、到东谈主工智能、乃至区块链畛域的狡计齐进展得十分隆起，应用场景也遮盖了PC、数据中心、汽车等阛阓。到2023财年，英伟达数据中心的营收占比初度特出了游戏，达55.6%。

谈及数据中心业务，黄仁勋说：“尽管咱们需要更多算力，然而数据中心耗尽并莫得那么快速的增长，因为摩尔定律到当今依然发生变化，依然适度了，如果咱们想要更多的算力，所稀有据中心齐需要加速，区别于ASIC芯片用于特定活动，英伟达是通用加速狡计平台。”

超越

英伟达最初的标签就是GPU，但只是是图像畛域的应用，并不及以相沿英伟达其后兴盛的市值。在炼就绝技的经过中，英伟达早已超越了最初GPU的主意，干预到更往常的产业之中。

其中，业内东谈主士说起最多的两大内功是GPGPU和CUDA，它们在为东谈主熟知的芯片之上，为产业制定了一整套软硬件法式，雄壮的软件生态也让英伟达面前立于锐不可当。

首先，回到GPU和CPU的区别上，GPU到底有何特质？为何能从副角成为主角？

GPU和CPU是当代狡计机中不可或缺的两个构成部分，但它们在运算模式、功能等方面却存在着明显的互异。通俗来说，CPU主要负责实践辅导统一的算术逻辑操作，而GPU则更擅长于并行狡计。这是因为GPU领有多量的中枢，每个中枢齐不错独马上进行狡计任务，从而竣事高效的狡计。

作念个鄙俗的比方，在电脑上画图一张图时，CPU的运算模式愈加崇敬逻辑，需要按照法规去画图像素，而GPU不错同期去画图多个像素。而画图背后主若是GPU在进行矩阵运算，就像一个矩阵运算界的顶尖妙手。

一运转，GPU正如其名“Graphic Processing Unit”，专供图像知道。一个要紧逾越是在2007年，英伟达冷落了GPGPU架构，即用于通用狡计的GPU，将GPU从传统的图像处理器，往常普及应用到狡计教化当中。

GPU在图像处理、视频编码等畛域进展优秀，而在一些特定的应用场景中，如科学狡计、工程仿真等，需要更高的狡计智商和更大的内存带宽，这时就需要使用更为雄壮的GPGPU进行更大畛域的并走时算。

这是英伟达扩大阛阓疆城的一个要紧节点。更为要紧的是，英伟达还在2006年推出了我方的CUDA平台，构建了雄壮的AI算力生态。

CUDA是英伟达的并行狡计平台和编程模子，CUDA不错通过行使GPU的处贤慧商大幅栽种狡计性能，让GPU领有处理复杂狡计问题的智商。而通过CUDA平台，开发者们不错在编程时更便捷地蜕变底层的GPU算力。

不错说，CUDA平台是英伟达竖立的并走时算的一整套软硬件生态法式，扫数英伟达的GPU齐兼容CUDA，而且大多数AI芯片均与之匹配兼容，尤其是教化端芯片。因此，尽管GPU或者AI的创业公司百鸟争鸣，大多齐兼容英伟达的CUDA平台，要再创建自有生态的壁垒和资本齐很高。

有产业链东谈主士向21世纪经济报谈记者示意，CUDA领有400多万开发者，软件生态的护城河终点高，目前要移动到国内较为熟习的AI芯片平台上，可能需要2、3年的期间。

面前在全球的GPU阛阓上，主要玩家是英伟达和AMD，英特尔比年也在发力GPU居品线，而英伟达目前仍占据主要阛阓份额。对标CUDA来看，AMD也在打造绽开的ROCm平台，ROCm平台于2016年推出，AMD也在不断优化ROCm套件。

亚马逊首创东谈主杰夫·贝索斯曾在一次访谈中说谈：“如果居品作念得优秀，而且饱胀庆幸，一般会有两年的最初优势，在AWS业务上亚马逊最初了七年，七年莫得宠均力敌的竞争敌手。”

再看英伟达和AMD，CUDA比ROCm整整超前了10年，CUDA十年磨一剑，挑战者们仍在追逐之中。

“通吃”

回来GPU和AI的发展史，黄仁勋说谈：“2012 年，狡计机视觉模子 AlexNet 就使用GeForce GTX 580进行教化，使用1400万张图像教化了AlexNet ，每秒可处理 262 PetaFLOPS（千万亿次浮点运算）。经过教化的模子以压倒性优势获取了ImagNet挑战赛，并激勉了AI的大爆炸。”

这时，GPU和AI的相拥就依然深埋种子，十年之后，Transformer模子面世，OpenAI基于Transformer开发了GPT-3。

此前的演讲中，黄仁勋谈到，GPT-3的教化需要323 ZettaFLOPS的算力，相配于AlexNet 的100万倍，从而创造了ChatGPT 这个惊骇全宇宙的AI。在他看来，新鲜的狡计平台依然降生，AI 的 “iPhone时刻”依然来临，加速狡计和AI技巧依然走进推行。

本年的GTC大会上，黄仁勋公布了诸多与生成式AI有关的进展，随后又在台北国外电脑展COMPUTEX上不时放出王炸，他秘书GH200 Grace Hopper超等芯片妥当投产，并公布由256个GH200驱动的新式DGX GH200 AI超等狡计机。

而此前英伟达就依然作念足了作业。2022年，英伟达推出了多款重磅居品，别离是基于全新Hopper架构的H100 GPU、CPU和GPU的合体Grace Hopper、两个CPU组合的Grace CPU Superchip，CPU的居品在2023年上市。

其中，遐想GPU新架构Hopper时，英伟达增添了一个Transformer引擎，专诚为Transformer算法作念了硬件优化，加速AI狡计的效果。

一位国内芯片从业者向21世纪经济报谈记者直言：“H100出来，其实就是一个新时间了，Grace-Hopper再一个组合，加上高配的互联，齐备不给活路，英伟达赢家通吃，AMD、Intel不时苦追。”

同期他也示意：“目前国内一些企业照旧在盯着CNN作念优化，英伟达依然有Transformer引擎，然后AIGC火热，恰好能作念支握。这个目光，只可佩服他们的科学家们对这个畛域深切的刚烈。”

一位学术界东谈主士也向21世纪经济报谈记者分析谈：“从H100上，包括专用的Transformer引擎以及对FP8阵势的支握，不错看到狡计硬件在向应用定制的方上前进。Grace CPU阐扬了整合异构狡计系统的要紧性。单纯的加速器优化和遐想依然不大略温顺当今关于狡计系统的算力和能效比的条目，需要各个部分的协同优化和遐想。”

他还示意，Grace CPU通过提高通讯带宽和在CPU和GPU之间竖立一致（coherent）的内存模子来处理运算中的瓶颈，这也和学界（近存狡计，存内狡计）与业界（CXL，CCI等等系统互联合同）一直在关注的标的是一致的。

一言以蔽之，在GPU和CPU的多样陈设组合中，英伟达又将算力栽种到了新高度。正如黄仁勋所言：“咱们正在从头发明狡计机，加速狡计和东谈主工智能标记着狡计正在被从头界说。”

黄仁勋在采访中还提到，数据中心需要用的CPU越来越少，不再是传统上购买数百万个CPU，而是转而购买数百万个GPU。换言之，在他看来，AI算力江湖依然是GPU的主场。

研讨

英伟达的布局还不啻于此。

一个推行问题是，高性能的算力也意味着腾贵的价钱。大模子教化资本动辄成千上百万好意思元，并不是扫数公司齐能承受。

而英伟达同期冷落了云劳动的处理有遐想NVIDIA AI foundations，黄仁勋示意要作念“AI界的台积电”。台积电大大贬低了芯片遐想公司分娩门槛，英伟达也要作念代工场的变装，通过和大模子厂商、云厂商配合提供高性价比的云劳动。

前述芯片从业者对记者领路谈：“卖云劳动，就是统一大模子方提供Pre training（预教化）的模子，小企业顺利Fine tuning（微调）就有我方的了。”

在匡助卑劣企业贬低大模子教化资本的同期，英伟达还在缓缓参与到上游的产业链升级中。本年，英伟达牵手台积电、ASML、新念念，发布了狡计光刻库cuLitho。

前述学术界东谈主士向记者先容谈，狡计光刻是在芯片遐想和制造畛域的要害法子，亦然最大的狡计负载之一。狡计光刻库的技巧突破就在于，不错通过部署有多量GPU的DGX AI狡计系统对狡计光刻进行加速，使其达到原有的基于CPU的狡计速率的几十倍，同期贬低狡计经过的总能耗。这将有助于晶圆厂裁汰原型周期期间、提高产量、减少碳排放，为2nm及更先进的工艺奠定基础，并为弧线掩模、高数值孔径极紫外、亚原子级光刻胶模子等新技巧节点所需的新式处理有遐想和创新技巧提供更多可能性。

新念念方面向21世纪经济报谈记者示意，这次研流配合中，cuLitho集成了新念念科技Proteus全芯片掩膜合成处理有遐想和新念念科技Proteus ILT反向光刻图形技巧，并进行了优化，以便在最新一代NVIDIA Hopper架构GPU上运行。如今，在cuLitho平台上运行Proteus处理有遐想只需要500个NVIDIA DGX H100 GPU，替代此前用于狡计光刻的40000台CPU劳动。狡计光刻经过的扫数部分齐不错并走时行，将电力能耗需乞降运行期间从几周减少到几天。

在多位产业界东谈主士看来，天然短期内不会影响到卑劣的应用方面，然而这些上游的研发和升级将耐久影响产业的发展，积蓄变成代际差。

“英伟达在GPU架构的迭代上，一直齐有属于我方的发展旅途，这几年的发展，也让英伟达跃居AI算力芯片畛域的辅导者，也因为最初，是以英伟达会念念考若何作念更多元的布局与行业内的深度配合，这么更能了解行业的需求，比方和台积电等配合即是很好的例子。”芯片行业众人姚嘉洋向21世纪经济报谈记者示意。

在2008年的电视采访中，黄仁勋说：“但愿有一天环球齐刚烈英伟达，就像环球齐刚烈微软、英特尔相同。”如今，英伟达险些是众所周知，领有绝世的武功，比大瞎想愈加要紧。

2023年，英伟达30周年之际，黄仁勋在采访中说：“（公司）直到当今才信得过升起。”生成式AI助力英伟达成为算力的新王。

天然，英特尔和AMD齐依然吹响反攻的军号。7月，英特尔面向中国阛阓推出了AI芯片Habana Gaudi 2；6月，AMD推出AI芯片Instinct MI 300X，两者齐顺利对标英伟达100系列。围绕着算力、纳米的职权游戏还将不时。

（剪辑：张伟贤）