提高64位MIPS处理器性能的技术方法

发布时间:2008/5/28 0:00:00 访问次数:520

如何在提高精简指令集处理器集成度和性能的同时，满足该类处理器指令尽量少的要求是芯片设计工程师的一个重要挑战。本文从mips处理器的发展过程阐述了采用缓存、64位处理器架构以及超标量技术应对这种挑战的方法，以及技术发展趋势。

摩尔定律给ic设计工程师提出了极大的挑战，而对于精简指令集(risc)处理器芯片的设计工程师来说尤其如此。他们在尽量集成更多的晶体管的同时，还必须满足该类处理器要求指令尽量少的特点。在最初定义mips处理器r2000及r3000的下一代产品时，我们力求在集成尽可能多的晶体管的同时，保持risc的基本原则。以下的一些问题和趋势为实现这种目标指明了有效的方法，并在r4000处理器的设计中得到有效的应用。

采用缓存器降低cpi

第一个问题是大型缓存对降低每条指令平均执行周期(cpi)很重要，由缓存丢失引起的处理器停滞(stall)严重降低了

cpi性能。由于允许的最小缓存为指令和数据各8kb，因此在r2000和r3000处理器中必须采用外部缓存。然而cpi并非唯一决定因素，因为总的计算吞吐量由ipc(1/cpi)和频率的乘积决定，而在r2000和r3000中，处理器频率同样受到外部缓存的存取速度限制。针对内部和外部缓存，描绘出最大频率和最大缓存尺寸所对应的频率和ipc的乘积图，便可以迅速进行处理器性能评估。由于超过约32kb后cpi性能不再提高，而随着频率增加性能提升却几乎保持线性增长，因此集成缓存十分有利。对于采用1.0微米的r4000处理器而言，我们最高采用了8kb的指令和数据缓存。

在集成缓存条件下，通过对缓存的访问可以实现流水线操作(pipelining)，进一步提高频率。如果需要，还可以在地址解码和阵列存取间增加流水线寄存器。对于r4000处理器来说，两个周期的缓存访问需要8级流水线，而在r2000和r3000处理器中则为5级流水线的单周期缓存存取。risc架构开创了一种称为超流水线操作的精细流水线粒度的技术，这种技术在x86架构中得到最好的利用。增加流水线级数也会使用更多的晶体管，同时流水线长度也呈线性增长。控制逻辑及数据路径逻辑也遵循这种线性增长原理。

64位寻址浮点运算将成为发展趋势

由于业界广泛采用ieee754浮点运算标准，以及在cad、打印和影像市场中的大范围应用，浮点运算的发展获得更大的推动。一个可以支持除法及平方根运算的完全流水线结构浮点乘法累加器的复杂度近似于整数单元的复杂度，浮点运算单元的主要数据类型是双精度或64位浮点数，它需要一个64位宽的数据通道进行快速执行。为了满足64位浮点单元所需的数据要求，数据缓存也必须是64位。因此，必须有一个64位浮点单元和一个64位的数据缓存。
处理器的寻址位数增长很快，业界已使用过4、8和16位寻址，并迅速发展到32位，目前64位的mmu架构和指令集扩展已经应用在r4000处理器上，并将成为以后所有64位mips的实现基础。而采用64位寻址并不意味着要使用64位整数单元。

目前64位寻址越来越普及，近年来英特尔和amd公司相继推出 64位处理器便是即是这种趋势的明证。此外，64位数据操作也对逐渐崛起的高性能网络市场带来冲击。综合考虑，对64位寻址、满足64位浮点单元的64位数据缓存、易于扩展成向后兼容的64位架构的32位risc架构的需要，以及对这种架构会持续数十年的看法正在成为一种大的趋势。在这种趋势下，64位r4000处理器推向了市场。

在这种背景下，qed公司开发了采用mips架构的处理器--r4600。这种处理器专门面对嵌入式市场，并得到多家网络设备公司的大量应用。r4600继承了risc的传统，扩展了缓存容量以增强cpi性能，并采用指令集相关性(set associativity)来提高缓存效率。r4600采用了微软为嵌入式系统应用开发的windows ce操作系统，可应用于机顶盒等产品中。

继r4600和r4300处理器后，qed开发出了r5000处理器。r5000处理器在r4600上增加了工作站级浮点运算，并将缓存大小增加到原来的两倍。无论是网络或打印市场，这款处理器都是第二代产品的设计基础。

在处理器电路的设计中，采用先进的工艺可以集成更多的晶体管。正如前面的分析，当缓存增大到一定程度性能便难以明显提高，显然停滞时间的长短影响这一临界点的位置。由于在处理器工作时，停滞时间长短会保持为一个常量，因此，如果dram的速度增长能与处理器速度增长保持一致则并不成问题。但是由于各种原因，dram的速率与处理器的速率并不一致，仅仅是其位数与处理速度增长保持一致。

由于dram的速率不能与处理器速度匹配，工程师采用构建处理器的二级外部缓存来降低处理器与dram的速率差异。采用0.25微米工艺，可以经济地构建一个带有16kb指令和数据一级缓存以及256kb二级缓存的处理器。这些也是qed的rm7000的规范，rm7000是商用市场首个集成了二级缓存的微处理器。

超级

如何在提高精简指令集处理器集成度和性能的同时，满足该类处理器指令尽量少的要求是芯片设计工程师的一个重要挑战。本文从mips处理器的发展过程阐述了采用缓存、64位处理器架构以及超标量技术应对这种挑战的方法，以及技术发展趋势。
摩尔定律给ic设计工程师提出了极大的挑战，而对于精简指令集(risc)处理器芯片的设计工程师来说尤其如此。他们在尽量集成更多的晶体管的同时，还必须满足该类处理器要求指令尽量少的特点。在最初定义mips处理器r2000及r3000的下一代产品时，我们力求在集成尽可能多的晶体管的同时，保持risc的基本原则。以下的一些问题和趋势为实现这种目标指明了有效的方法，并在r4000处理器的设计中得到有效的应用。

采用缓存器降低cpi

第一个问题是大型缓存对降低每条指令平均执行周期(cpi)很重要，由缓存丢失引起的处理器停滞(stall)严重降低了

cpi性能。由于允许的最小缓存为指令和数据各8kb，因此在r2000和r3000处理器中必须采用外部缓存。然而cpi并非唯一决定因素，因为总的计算吞吐量由ipc(1/cpi)和频率的乘积决定，而在r2000和r3000中，处理器频率同样受到外部缓存的存取速度限制。针对内部和外部缓存，描绘出最大频率和最大缓存尺寸所对应的频率和ipc的乘积图，便可以迅速进行处理器性能评估。由于超过约32kb后cpi性能不再提高，而随着频率增加性能提升却几乎保持线性增长，因此集成缓存十分有利。对于采用1.0微米的r4000处理器而言，我们最高采用了8kb的指令和数据缓存。

在集成缓存条件下，通过对缓存的访问可以实现流水线操作(pipelining)，进一步提高频率。如果需要，还可以在地址解码和阵列存取间增加流水线寄存器。对于r4000处理器来说，两个周期的缓存访问需要8级流水线，而在r2000和r3000处理器中则为5级流水线的单周期缓存存取。risc架构开创了一种称为超流水线操作的精细流水线粒度的技术，这种技术在x86架构中得到最好的利用。增加流水线级数也会使用更多的晶体管，同时流水线长度也呈线性增长。控制逻辑及数据路径逻辑也遵循这种线性增长原理。

64位寻址浮点运算将成为发展趋势

由于业界广泛采用ieee754浮点运算标准，以及在cad、打印和影像市场中的大范围应用，浮点运算的发展获得更大的推动。一个可以支持除法及平方根运算的完全流水线结构浮点乘法累加器的复杂度近似于整数单元的复杂度，浮点运算单元的主要数据类型是双精度或64位浮点数，它需要一个64位宽的数据通道进行快速执行。为了满足64位浮点单元所需的数据要求，数据缓存也必须是64位。因此，必须有一个64位浮点单元和一个64位的数据缓存。
处理器的寻址位数增长很快，业界已使用过4、8和16位寻址，并迅速发展到32位，目前64位的mmu架构和指令集扩展已经应用在r4000处理器上，并将成为以后所有64位mips的实现基础。而采用64位寻址并不意味着要使用64位整数单元。

目前64位寻址越来越普及，近年来英特尔和amd公司相继推出 64位处理器便是即是这种趋势的明证。此外，64位数据操作也对逐渐崛起的高性能网络市场带来冲击。综合考虑，对64位寻址、满足64位浮点单元的64位数据缓存、易于扩展成向后兼容的64位架构的32位risc架构的需要，以及对这种架构会持续数十年的看法正在成为一种大的趋势。在这种趋势下，64位r4000处理器推向了市场。

在这种背景下，qed公司开发了采用mips架构的处理器--r4600。这种处理器专门面对嵌入式市场，并得到多家网络设备公司的大量应用。r4600继承了risc的传统，扩展了缓存容量以增强cpi性能，并采用指令集相关性(set associativity)来提高缓存效率。r4600采用了微软为嵌入式系统应用开发的windows ce操作系统，可应用于机顶盒等产品中。

继r4600和r4300处理器后，qed开发出了r5000处理器。r5000处理器在r4600上增加了工作站级浮点运算，并将缓存大小增加到原来的两倍。无论是网络或打印市场，这款处理器都是第二代产品的设计基础。

在处理器电路的设计中，采用先进的工艺可以集成更多的晶体管。正如前面的分析，当缓存增大到一定程度性能便难以明显提高，显然停滞时间的长短影响这一临界点的位置。由于在处理器工作时，停滞时间长短会保持为一个常量，因此，如果dram的速度增长能与处理器速度增长保持一致则并不成问题。但是由于各种原因，dram的速率与处理器的速率并不一致，仅仅是其位数与处理速度增长保持一致。

由于dram的速率不能与处理器速度匹配，工程师采用构建处理器的二级外部缓存来降低处理器与dram的速率差异。采用0.25微米工艺，可以经济地构建一个带有16kb指令和数据一级缓存以及256kb二级缓存的处理器。这些也是qed的rm7000的规范，rm7000是商用市场首个集成了二级缓存的微处理器。

超级

上一篇：意法半导体（ST）完成NAND闪存产品70nm技术升级

上一篇：Allegro推ACS714汽车级线性电流传感器

相关技术资料

7-12PWM输入功率驱动器工作原理
7-12隔离式 DC/DC 变换器和模块优势特征
7-12解读集成4 个高效降压 DC/DC 变换器
7-12数字隔离功能全集成 DC/DC 电源变换器简述
7-12集成低噪声电流输入模数转换器 (ADC)应用详解
7-12128 通道20 位电流数字转换器应用探究
7-11最新12kW量产电源参考设计简述
7-11第三代快速碳化硅MOSFET技术参数应用
7-11800 V高压直流 (HVDC)全新架构电源系统
7-11串行千兆位媒体独立接口（SGMII和RGMII）
7-11Analog Devices ADIN3310应用详情
7-11干簧传感器MK17系列应用详解

相关IC型号

热门点击

三星新开发出70nm工艺DDR2 SDRam
ACT/Technico面向汽车等应用发布可
PIC16F87x的数据存储器规划和中断编程
希捷推出小尺寸的15K转速SAS硬盘
OKI语音合成芯片ML22P80X系列内置O
光纤通道的实时数字图像存储
LATTICE推出业界速度最快的QDR II
Atmel推出新系列低功耗32位闪存微控制器
Dallas实时时钟产品线新增DS32B35
意法半导体推出128Mb串行闪存芯片M25P

推荐技术资料

耳机放大器

为了在听音乐时不影响家人，我萌生了做一台耳机放大器的想... [详细]

PWM输入功率驱动器工作原理
隔离式 DC/DC 变换器和模
解读集成4 个高效降压 DC/
数字隔离功能全集成 DC/DC
集成低噪声电流输入模数转换器 (ADC)应用
128 通道20 位电流数字转换器应用探究
多媒体协处理器SM501在嵌入式系统中的应用
基于IEEE802.11b的EPA温度变送器
QUICCEngine新引擎推动IP网络革新
SoC面世八年后的产业机遇
MPC8xx系列处理器的嵌入式系统电源设计
dsPIC及其在交流变频调速中的应用研究