半导体行业观察 04-02
又一个芯片架构,走向消亡?
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

如果您希望可以时常见面,欢迎标星收藏哦 ~

2000 年的东京,索尼电脑娱乐公司(SCEI)总部的会议室里,久多良木健端起手中的咖啡,望向窗外的东京塔。他的脑海中浮现的并不是 PlayStation 2 的辉煌战绩,而是更远大的愿景——一个打破计算瓶颈的未来。

在一次内部会议上,他向团队展示了一张草图,那是一个关于 "Cell 处理器 " 的概念雏形。他用生物学的比喻来描述:"Cell 处理器就像人体的细胞,而宽带网络则是由无数细胞组成的社会。" 在他看来,如今的计算架构——服务器、路由器、交换机——已经被 20 世纪 50 年代的计算模式束缚,必须有新的突破。

强强合作

1999 年,索尼内部对未来计算架构的讨论早已展开,但要真正让 Cell 概念落地,索尼需要技术实力更为雄厚的合作伙伴。此时,IBM 也在寻找突破。IBM 微电子公司副总裁 Bijan Davari 认为,现有的 PC 处理器架构已经走到了极限,必须从零开始设计新架构。

与此同时,东芝也在寻找能够增强其半导体竞争力的机会。东芝半导体公司总裁 Yasuo Morimoto 意识到,未来的消费电子市场不仅仅依赖于处理器,更需要一整套先进的存储和计算解决方案。三家公司一拍即合,2000 年底,索尼、IBM 和东芝宣布共同开发 Cell 处理器。

合作计划的发布会上,久多良木健带着他标志性的激情宣布:"Cell 将会像 IBM 的 Deep Blue 一样集成在一个芯片上。" 这个比肩国际象棋超级计算机的芯片,目标是每秒 1 万亿次浮点运算,未来甚至可以通过并行计算达到惊人的 1 千万亿次。

IBM 计划投资 4 亿美元,在德克萨斯州奥斯汀的 IBM 工厂内设立设计中心,并在纽约州菲什基尔建设 300 毫米晶圆厂。索尼获得了 IBM 的 100 纳米 SOI 工艺授权,东芝则计划使用自己的 100 纳米工艺技术。

" 我们从一张白纸开始,想象五年后需要怎样的处理器。" IBM 微电子公司新兴产品总监 Lisa Su 回忆道。这场豪赌不仅仅关乎技术突破,更是对未来计算架构的一次彻底革新。

2003 年初,IBM 在纽约州菲什基尔的工厂开始生产 100 纳米工艺,而东芝在横滨的研发中心同步推进。Cell 处理器的架构团队在奥斯汀的实验室里熬夜奋战,尝试将 5 到 10 个不同计算单元整合到一个芯片中。

IBM 微电子公司副总裁 Bijan Davari 解释说:"Cell 的核心架构并不是 VLIW,而是一个全新的架构,每个芯片包含多个计算单元。" 初期版本不会在主处理器芯片上集成嵌入式 DRAM,但未来 70 纳米和 50 纳米工艺成熟后,eDRAM 将成为主流。

久多良木健强调,Cell 的目标是创建一个 " 真正连接在一起 " 的网络计算世界。他设想的理想网络将通过光纤连接,带宽甚至超过主内存带宽。到 2010 年,他希望有 1 亿到 2 亿个 Cell 处理器运行在全球各地,构建一个超级计算网络。

2004 年,首批基于 Cell 处理器的产品开始出现,而索尼最重要的次世代主机—— PlayStation 3 就是 Cell 的主战场,在索尼和久多良木健看来,Cell 处理器的高并行计算能力,不仅适用于游戏,还能拓展到超算、数字消费电子、甚至人工智能领域,这颗处理器将成为未来索尼电子帝国版图的关键。

有意思的是,在 Cell 处理器发布的前夕,野心勃勃的久多良木健甚至找上了苹果 CEO 史蒂夫 · 乔布斯,向他推销 Cell 处理器,希望能这款跨时代的处理器能搭载在下一代 Mac 上,希望 Cell 的生态能够拓展至个人电脑与桌面端之上。

不过乔布斯拒绝了这个提议,他丝毫不掩饰对 Cell 设计的失望,表示 Cell 甚至不如用了这么多年的 PowerPC,后续苹果在 2005 年的 WWDC 上宣布转投英特尔和 x86 的怀抱,Cell 遭遇了一次小挫折。

强悍性能

为什么久多良木健如此有信心呢,答案当然离不开理论上 Cell 处理器的强悍性能。

根据索尼的官方文档,Cell 处理器的核心是一颗强大的 64 位 PowerPC 处理单元 ( PPE ) 。这个控制中心负责整个系统的监督和协调,就像一个经验丰富的项目经理。它运行着操作系统,管理系统资源,并为八个协同处理单元分配任务。

" 我们选择 PowerPC 作为控制核心是有意为之的," 一位 IBM 的资深设计师曾回忆道," 这为开发者提供了一个熟悉的起点,同时又能支持我们的创新愿景。"

这个控制单元配备了 23 级流水线和三级缓存层次结构,使其能够以高频率运行并高效地处理复杂任务。此外,它还具备双线程能力,可以同时管理多个控制流程,提高整体系统的响应性。

而围绕着 PPE 的是八个协同处理单元 ( SPE ) —— CELL 架构中真正的革命性元素。这些单元不同于传统处理器,它们专为高吞吐量的数据并行处理而优化。

" 当时,市场上没有任何处理器像 CELL 这样大胆地整合如此众多的专用核心," 一位参与项目的工程师解释道。" 这是一次冒险,但我们相信这种方法能够实现前所未有的性能。"

每个 SPE 都具有 256 KiB 的本地存储空间,这种设计打破了常规。与传统的自动缓存不同,这种存储需要程序员直接管理,增加了编程的复杂性,但也带来了更高的效率和可预测性。SPE 通过内存流控制器管理的 DMA 传输获取数据,每个时钟周期可以执行两条指令,极大地提升了并行处理能力。

而将这些处理单元连接在一起的是单元互连总线 ( EIB ) ——一个设计精巧的通信系统。它采用了四环结构,包括两个顺时针和两个逆时针数据环,可支持多个并发数据传输,总带宽超过 200 GB/s。

"EIB 的设计是 CELL 成功的关键之一," 一位系统架构师解释道。" 没有这种高带宽连接,单个处理单元的强大能力将无法充分发挥。"

这种互连设计确保了处理单元之间以及与主内存之间的数据可以快速、高效地移动,最大限度地减少了通信瓶颈。

除此之外,Cell 还采用了一种非常规的内存架构,SPE 不能直接访问系统主内存,数据必须通过显式的 DMA 操作在本地存储和主内存之间移动。系统使用 Rambus XDR 内存,提供了较高的内存吞吐量,这种方法虽然增加了编程复杂性,但对于数据密集型应用,它提供了前所未有的性能和效率。

" 我们意识到数据移动是现代处理器中的主要瓶颈," 系统架构师说," 通过让程序员直接控制数据流,我们可以避免传统缓存架构中的许多低效问题。"

按照久多良木健的构想,强大无比的 Cell 能带领索尼重回巅峰,夺回日本在芯片领域的话语权,只可惜,想法虽美好,现实却残酷。

连连折戟

2005 年,Cell 处理器的首批样品终于诞生。它采用 90nm 工艺制造,集成了一个主频高达 4GHz 的 PowerPC 核心(PPE)和多达 32 个协处理单元(SPE),峰值计算性能达到惊人的 1TFLOPS!对于那个时代的处理器而言,这几乎是科幻级别的性能,远超英特尔的奔腾 4 或 AMD 的 Athlon 64。

然而,过高的功耗、复杂的芯片架构和生产良率问题,让这个原型版本注定难以量产。于是,工程师们不得不 " 挥刀自宫 ",大幅削减了 SPE 的数量,将最终量产版本的 Cell BE(Broadband Engine)调整为 1 个 3.2GHz 的 PPE 和 8 个 SPE,并屏蔽了其中的 1 个,最终只允许游戏开发者使用 6 个 SPE。尽管如此,它在单精度浮点计算上的理论峰值仍然高达 230 GFLOPS,远超同时期的 PC 处理器。

在 2005 年的 E3 发布会上,久多良木健站在舞台中央,神采飞扬地向全世界展示 PS3 的强大性能。他坚信,Cell 处理器将彻底颠覆游戏行业,使 PS3 不仅仅是一台游戏机,而是一个划时代的数字娱乐终端。

他豪言道:"PlayStation 3 将开启娱乐产业的新纪元,它不仅仅是一台主机,而是一扇通向未来的窗口。" 在他的描绘中,PS3 不仅能够提供前所未有的视觉体验,还能承担科学计算、家庭娱乐中心等多重角色,彻底改变人们的生活方式。

然而,PS3 的开发者们却发现,这款芯片并不像它的理论性能那么美好。传统的游戏开发者习惯于使用标准的 x86 或 PowerPC 架构,而 Cell 的 SPE 架构需要高度优化的并行代码,存储管理依赖 DMA(直接存储器访问),甚至连基本的缓存一致性都要手动管理。

更严重的问题在于,索尼在 PS3 的架构设计上做出了妥协。Cell 芯片自带的 256MB XDR 内存无法与 GPU 共享,索尼只能额外加入 256MB GDDR3 显存。这种内存分配方案大幅增加了成本,并且影响了数据传输效率。此外,PS3 为了向下兼容 PS1 和 PS2,还额外加入了一颗 EE+GS 芯片,进一步推高了硬件成本。

与此同时,索尼还希望借助 PS3 推广蓝光光盘技术,与 HD-DVD 阵营展开竞争,因此为 PS3 配备了昂贵的蓝光光驱。拆解报告显示,Cell 芯片的成本约为 89 美元,RSX 显卡的成本为 129 美元,蓝光光驱高达 125 美元,加上 EE+GS 芯片、散热系统等,PS3 的制造成本最终高达 805-840 美元。然而,PS3 的起售价仅为 499 美元,每卖出一台就意味着巨额亏损。

高昂的售价、复杂的架构、超高的功耗(运行游戏时功耗可达 200W)以及开发难度,使得 PS3 在市场竞争中陷入被动。与此同时,微软在 Xbox 360 上采用了更简单、更接近 PC 架构的定制 PowerPC 三核处理器,并搭配 ATI R500 显卡,开发者更容易适配,许多跨平台游戏在 Xbox 360 上的表现甚至优于 PS3。

本以为凭着 Cell 强大性能就能占领数字娱乐市场的索尼,被狠狠打了一耳光。

另谋出路

在游戏领域表现平庸的 Cell,转战服务器领域,也没好到哪里去。

2006 年,IBM 宣布推出 Cell Blade 服务器,首款型号为 BladeCenter QS20。随后,IBM 于 2007 年 8 月推出了升级版 BladeCenter QS21,并在 2008 年 5 月发布了采用新一代 PowerXCell 8i 处理器的 BladeCenter QS22。

IBM 在 2010 年就宣布停止对第二代 Cell Blade 提供支持,转而专注于其他高性能计算解决方案,甚至比失败的 PS3 还短命,不禁让人感慨。

不过,在科学计算领域,Cell 却意外地找到了用武之地。

2008 年,美国洛斯阿拉莫斯国家实验室基于 Cell 架构,搭建了一台名为 Roadrunner 的超级计算机。它采用了 PowerXCell 8i —— Cell BE 的增强版,具备更强的双精度浮点运算能力,达到了 102.4 GFLOPS,远超当时的传统 CPU。Roadrunner 最终成为全球首台性能突破 1 PetaFLOPS(千万亿次浮点运算)的超级计算机。

2010 年,美国空军研究实验室(The Air Force Research Laboratory,AFRL)组建了一套物美价廉的超算,其由 1760 台 PS3、 168 个独立图形处理单元及 84 个协调服务器组成,其代号为 " 秃鹰群 "(Condor Cluster),用于处理卫星图像、雷达以及研究 AI,AFRL 还向一些大学以及研究机构开放了秃鹰群的部分算力,据透露,这个超算总耗资约 200 万美元,运算性能为 500TFlops,成本和耗电量均只有同等运算力常规超算的十分之一。

另外,索尼还在 2007 年宣布 PS3 正式加入 Folding@home,这是一个研究蛋白质折叠,误折,聚合及由此引起的相关疾病的分布式计算工程,用户可以让自己的 PS3 在闲置时执行 Folding@home 分发的运算任务,截至 2008 年 9 月,参与的 PS3 游戏机提供了 1.2PFlops 的运算能力,占当时运算总数的近 35%。

Cell 虽然在游戏主机市场的表现未达预期,却在高性能计算领域留下了浓墨重彩的一笔,也算是种种挫折后为数不多的成功。

而随着技术的演进,Cell 架构的短板也越来越明显。

首先,PPE 的通用计算能力不及同时代的 x86 CPU,而 SPE 虽然擅长并行计算,但编程难度过高,导致软件生态迟迟无法成熟。其次,随着 GPU 计算(如 CUDA、OpenCL)的大幅崛起,GPGPU 技术逐渐取代了 Cell 的市场地位。再加上索尼在 PlayStation 4 中放弃了 Cell 架构,转向了 AMD 的 x86 方案,Cell 的时代也逐渐走向落幕。

2012 年,IBM 宣布不再更新 Cell 架构,宣告这一曾被寄予厚望的芯片正式走入历史。

而在今年 3 月,由于产品早已停止维护,加之没有足够的用户,Linux 6.15 内核也将删除对 IBM Cell Blade 服务器的支持,正式宣告了 Cell 这一架构的死刑。

写在最后

虽然 Cell 处理器最终未能成为市场的主流,但它的创新理念却影响深远。其 SPE 架构的并行计算思路,为后来的 GPU 计算模式提供了灵感。英伟达的 CUDA 核心、异构计算的发展路径,多少都有 Cell 的影子。

时至今日,PS3 仍然在一些科学计算项目中发挥着余热,而 Cell 的故事,仍然是计算架构史上最具传奇色彩的篇章之一。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

ibm 东芝 索尼 芯片 半导体
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论