寄存器文件的研究与全定制实现

寄存器文件的研究与全定制实现

刘龙[1]2004年在《寄存器文件的研究与全定制实现》文中认为寄存器文件的优化设计对提高微处理器的性能至关重要。现代微处理器设计为提高性能和指令级并行往往采用大规模、多端口的寄存器文件资源,采用全定制方法设计高性能的寄存器文件对于提高整个微处理器的性能、减小芯片面积和降低功耗都非常关键。 X微处理器是一款具有完全自主知识产权的64位高性能通用处理器,该处理器设置了大量的多端口、大规模的寄存器文件资源以支持指令的多流水、多发射以及数据的前瞻性预取,提高了指令执行的并行性并显着提高了处理器的访存性能。 本文讨论了寄存器文件的全定制设计技术,并结合具体的工程任务——“八六叁”重大项目—“64位高性能通用微处理器芯片研制”,优化设计实现了一款多端口、大规模、高性能的通用寄存器文件,验证了实现结果的正确性并形成了IP,保证了设计的可重用性。 本文研究的主要内容包括: 1.详细讨论了寄存器文件的总体结构设计,并在此基础上确定了通用寄存器文件的总体逻辑结构和版图结构; 2.深入研究了通用寄存器文件的逻辑和电路设计优化技术,优化设计了端口共享、读写时间错开式的读写控制电路,并完成了存储体的优化设计; 3.阐述了通用寄存器文件的版图实现技术,深入探讨了版图设计实现中的布线资源问题、信号完整性问题、信号驱动问题,在优化的物理布局的基础上,采用结构化版图设计方法完成了通用寄存器文件的版图设计优化与验证,并进行了寄生参数的提取及带寄生参数的电路级模拟; 4.产生了通用寄存器文件的IP,保证了设计的可重用性。 本文研究的成果直接应用于自主设计的X微处理器,工程意义重大,并在全定制设计方法和设计理论上为更高性能的CPU设计积累了经验。

熊保玉[2]2011年在《高性能低功耗多端口寄存器文件研究与全定制实现》文中研究说明寄存器文件是嵌入式超标量微处理器的重要组成部分。高性能要求寄存器文件具有小的访问延时,而嵌入式应用更关注工作功耗和待机功耗,超标量处理器则要求寄存器具有多个读写端口。因此,设计具有高能性、低功耗,多端口的寄存器文件是一项非常有意义的工作。本文采用全定制的设计方法,在65nm低功耗工艺下,设计并实现了4R/2W 32x32b寄存器文件。本文的主要工作:(1)寄存器文件通常采用多端口的静态存储器实现。本文首先对SRAM组成和工作原理做了简要的回顾,对地址译码、存储单元、读写电路以及时序控制策略设计里的一些关键技术做了介绍,并对它们的优缺点做了比较。(2)提出一种基于敏感放大技术,双位线读存储单元的寄存器文件结构。地址译码采用两级静态译码以提高性能降低功耗。存储阵列由具有采用双位线读,双位线写的存储单元构成。读电路采用电压灵敏放大技术以降低读延时。基于反相器链的读写控制逻辑确保在单个周期内正确的读写操作。后仿真结果表明,该寄存器文件在典型工艺环境下,1.2伏电源电压,50℃时,可以工作在1.56GHz时钟频率下,时钟频率1.25GHz时功耗小于36mw,面积为0.043mm2。(3)提出另一种基于位线分割技术、静态单位线读存储单元的寄存器文件。设计用到一些功耗的优化技术包括:位线分割技术、两级静态译码技术、单位线读存储单元、门控时钟,部分译码技术等。模拟和仿真证明,该寄存器文件可以工作在1.0GHz频率下,动态功耗为24mw,面积为0.046mm2。(4)提出一种基于位线分割技术、动态单位线读存储单元的寄存器文件结构。由于采用了单位线读存储单元,存储阵列的面积大大下降,整个寄存器文件的面积下降为0.01mm2。同时,由于面积减小,在典型的PVT环境下,性能提升至2.2GHz,时钟频率1GHz时功耗为11.4mw。

李振涛[3]2007年在《高性能DSP关键电路及EDA技术研究》文中研究表明数字信号处理器(Digital Signal Processor:DSP)是一种专用于数字信号处理的嵌入式处理器,拥有强大的运算能力。在无线通信、多媒体、便携式数字终端、医疗设备、计算机网络、雷达和精确制导武器等领域有广泛应用。改进电路设计是提高DSP性能的有效方法,改进电路设计包括采用先进的电路技术和先进的电路设计方法,而EDA技术是设计方法中非常关键的一个要素。本文以600MHz YHFT-DSP/MHM数据通路的设计为背景,从关键电路和EDA技术两个方面入手,对高性能DSP的电路设计技术进行了深入研究,并取得了以下成果:1.为了降低动态电路的功耗,避免或减少同步开销,提出了有限动态电路设计方法。阐述了有限动态电路设计方法的基本思想,结合一个32位加法器环路的设计,系统介绍了有限动态电路设计方法的关键技术:动态电路的选择与设计,时钟设计,延迟预充技术,双态电路和抗噪声设计方法。实验结果表明:有限动态电路的速度略优于完全动态电路,功耗降低了52.78%。2.针对13读/9写寄存器文件的设计,提出了端口复用技术,将寄存器单元端口的数目和译码器的数目均减少了7个,并完成了与端口复用相关电路的设计。提出了沟道增长Dual-Vt位线技术,通过增加Dual-Vt位线结构中高阈值器件的栅长,获得了更快的速度,并改善了电路的噪声特性。实验结果表明,在90nm工艺中,沟道增长Dual-Vt位线结构的主要指标均优于伪静态位线结构,与LBSF位线结构相比功耗降低了28.5%,漏电流降低了99.78%,面积增加了9.5%。3.基于二位Booth乘法,提出了16位混合乘法器的算法。与同类型研究相比部分积减少了6个,面积、延时和功耗的改善均超过了20%。在180nm工艺下完成了乘法器的全定制设计优化和测试芯片的设计,提出并实现了一种通用、灵活、低成本的模块级电路测试方案。测试结果表明,芯片的工作频率在SIMD模式下高于475.2 MHz,在普通模式下介于404.8MHz和475.2MHz之间。4.完成了全定制电路功能模型提取关键算法的研究,实现了一个功能模型提取工具TranSpirit。实验结果表明TranSpirit具有很高的效率,能够满足模块级全定制设计功能验证的要求。5.阐述了晶体管级混合时序分析方法的基本思想和流程,提出了考虑MIS效应的最大延时和最小延时测试波形生成算法,实现了一个晶体管级混合时序分析工具SpiceTime。与Hspice相比,SpiceTime具有更高的分析效率,而且最大延时的误差不超过2.89%,最小延时的误差不超过7%。6.研究了有限动态电路时序验证方法。基于四事件周期模型,研究并总结了HI-CMOS、LO-CMOS、NTP动态门和N-C~2MOS锁存器正确工作所需要满足的时序约束;率先将混合时序分析方法应用于动态电路的延时计算,提出了动态门延时测试波形的生成算法。有限动态电路的时序验证方法已经在SpiceTime中得到了实现,并且应用于32位加法器环路的设计验证。该方法提高了设计效率,帮助发现了设计中存在的问题。如果不考虑伪路径的影响,求值方向和预充方向延时的最大误差分别为3.62%和8.26%。本文的研究为YHFF-DSP/MHM数据通路的设计提供了可行的设计方案,为进一步研究如何提高DSP的电路设计技术奠定了坚实的基础。

刘荣华[4]2013年在《40nm工艺多端口寄存器文件的全定制设计与实现》文中研究指明新型微处理器中寄存器文件的数量越来越多,寄存器文件延时、面积和功耗占芯片各项指标的比重日益显着。高性能处理器中寄存器文件性能成为影响其性能的重要因素,如何更好提升寄存器文件的性能成为现阶段研究的重点。本课题对寄存器文件相关的设计理论和实现技术进行深入研究,以实现高性能为主要目标对寄存器文件进行设计与优化,并在40nm CMOS1P9M工艺下,采用全定制方法设计实现一款6R5W、32×78位的寄存器文件。模拟结果表明整个寄存器文件版图的读“1”延时为367ps,与半定制方法相比,时钟频率提升52.3%,满足2GHz的设计要求。本文主要工作及贡献有以下几个方面:1.设计了一种新的两级奇偶动态译码结构,通过控制地址最低位使得一个译码器可以产生奇偶两个字线信号。这种设计结构使译码器数目减少50%,相对静态译码,性能提升25%。2.在寄存器文件中采用一种新的存储结构,该结构与控制信号协调使用可以实现写后读操作。采用这种结构的寄存器文件不仅能够很好的满足设计要求,而且可以简化读操作电路结构。3.采用预估负载的方法选择合适的驱动单元,改善版图设计中信号驱动过大或过小的问题,并解决因此产生的延时较大问题。4.对寄存器文件功能模型、LEF物理视图和LIB时序模型进行提取,提高寄存器文件的可重用性。此外,还对寄存器文件的可扩展性进行研究,提出一种可以灵活增加字线和位线数目的方法,并通过实验分析该方法对延时的影响程度。上述研究成果显着降低了寄存器文件延时并将应用于工程项目中,该研究成果为40nm以下工艺寄存器文件的研究积累了丰富经验。

马鹏勇[5]2007年在《CMT处理器高速缓存的优化技术》文中研究说明用户的需求是无止境的,提高微处理器性能是广大研究者们不懈追求的目标。目前半导体工艺的飞速发展,使得单个芯片上可以集成数十亿个晶体管,如何有效地利用这些不断增长的片上资源,开发出高效的微处理器,是当前计算机体系结构进一步发展面临的重要挑战之一。通过开发深度指令级并行性(ILP)来提高微处理器性能的传统方法越来越受到以下两个方面的限制,一是设计复杂,研制周期长;二是由于单个线程的指令级并行度有限,导致芯片的运行效率低。多线程处理器(CMT)通过挖掘程序的线程级并行性(TLP),提高了系统的性能,是克服指令级并行性难以进一步开发的有效方法。另外,在单个芯片上实现多核多线程结构,可以利用原有的单核单线程的设计基础,使得芯片的开发周期短并易于验证。CMT已经成为当今处理器设计的主流结构,因此研究CMT结构中的关键技术问题具有迫切的需求和较高的应用价值。本文的工作主要针对CMT处理器的高速缓存进行优化。为了减小多线程运行时指令Cache的冲突,本文提出了二幂等分指令Cache策略和循环锁竞争机制;现有对CMT处理器公平性的研究常常需要中断其它线程进行单线程采样,针对这个问题本文提出了多线程公平性策略FROCM;本文提出了环形协同数据Cache结构,以解决CMT处理器中共享存储体负载重,冲突大的问题;本文还提出了基于快速共享数据缓冲池的线程动态交换技术;最后本文实现了一个双核同时多线程芯片原型YHFT DSP/DS。另外,为了缩短芯片中关键路径,本文对多端口寄存器文件进行全定制优化设计;为了快速对全定制模块建模,本文提出了全定制模块的伪同步时序建模方法,大大地降低了多端口硬宏模块建立延迟视图的工作量。本文主要的研究成果有:1)二幂等分Cache策略和循环锁竞争机制。在CMT处理器中,多个线程共享指令Cache,导致Cache抖动现象经常发生。本文提出了二幂等分Cache策略和循环锁竞争机制来降低Cache冲突,采用这两种方法后,不仅主线程的性能比以前有很大的提高,而且整个系统的吞吐量也提高了4%。2)多线程的公平性策略FROCM。当前对多线程芯片中线程公平性的研究,往往需要开辟采样阶段来获取单线程的IPC_(alone),降低了处理器性能。FROCM策略不需要进行单线程采样,当每个线程遇到Cache失效时,自动重新计算其IPC_(alone)。实验结果表明,绝大部分测试组合的系统公平值Fn都能保证在0.95以上。3)环形协同一级数据Cache结构RCDC。在CMT处理器中,共享的高级Cache要为多个私有的低级Cache提供指令和数据,负载重,冲突大。RCDC充分利用了同一芯片上不同处理器核L1D之间能快速进行数据传送的优点,尽量减少对共享L2的访问。并以此结构为背景,建立了一种简洁高效的数据一致性协议:M2SI。4)线程动态交换技术。它能实时检测两个线程间数据的亲密度,当发现处于不同内核的两个线程所处理的数据密切相关时,能快速地把它们交换到同一个内核中运行。此方法能有效减少内核间的通信量,提升处理器的性能。5)设计并实现了双核同时双线程处理器原型系统YHFT DSP/DS并对单个内核做了FPGA验证。为了适应数字信号处理中大量的生产者→消费者类型的处理,我们还在原型芯片中设置了共享数据缓冲池。利用原型芯片YHFT DSP/DS对上述技术的正确性和有效性进行了全面的验证和评估,模拟结果显示,与单核单线程处理器YHFT DSP/800相比,YHFT DSP/DS处理器可以获得近两倍的性能提升。论文的研究成果为CMT处理器设计提供了一个可行的方案,为进一步提高CMT处理器中高速缓存的性能提供了理论依据和实践基础。

肖伟[6]2010年在《支持多线程并行的整数寄存器文件全定制设计》文中研究指明微处理器诞生至今,寄存器文件作为其内核关键部件,往往需要快速的读写访问速度;而且随着高端微处理器向着多线程、寄存器窗口技术方向发展,寄存器文件也要支持这些技术,因此实现支持多线程并行寄存器文件的高速读写成了当前研究的一个难题。X处理器是一款64位多核多线程的高性能微处理器,其整数寄存器文件的频率较高,规模较大,端口较多,是项目中的一个重点和难点。鉴于目前基于标准单元的半定制设计的速度难以满足设计要求,因此对其进行全定制设计。该高速寄存器文件的设计和实现具有重要的理论研究意义和工程实用价值。本文在65nm CMOS工艺下设计了一款支持多线程并行的高性能整数寄存器文件,它有3个读端口和2个写端口,128字×72位。典型情况下模拟结果表明:读出延时小于650ps,写入延时小于580ps。与基于标准单元的半定制综合结果相比,最大访问时间由875ps下降到650ps以内,优化了约35%;面积由130284μm2缩小到106790μm2以内,优化了约22%,两者均达到了设计目标。本文研究的主要内容包括:》为实现支持4线程并行,采用了两级寄存器窗口结构,存储阵列中采用了分组和位线复用的设计方法,设计出支持X处理器体系结构的多线程存储体结构;》高速寄存器文件的全定制电路设计,对电路结构进行了合理的改进使得电路能够快速有效的工作,且节省了大量的面积和功耗开销,设计的动态多米诺译码电路和单端灵敏放大器等等这些措施既缩小了电路规模,又减小了功耗;》完成了Active窗口寄存器文件的全定制版图设计,对版图进行了布局优化,改善了电路的工作性能。

李毅[7]2011年在《高性能低功耗SoC设计以及寄存器堆的应用》文中研究表明集成电路设计以及微电子制造己成为当代信息产业最基础最重要的一环。本论文主要对高性能低功耗高速寄存器的实现以及其SoC集成的方法做全方位的探讨。本论文的重点有叁个方面,一是高性能低功耗寄存器堆的实现问题。寄存器堆的主要结构有存储单元,译码器,时序控制模块,读出电路。本文针对上述基本结构提出了一种寄存器堆的设计方案,通过全定制流程与他人共同实现了该设计,达到了高速低功耗的要求。二是SoC的实现方法问题。SoC集成电路有多种实现方法,通常我们采用基于标准单元半定制设计方法,除此之外,还采用全定制的设计方法,FPGA设计方法,他们各有优缺点,在不同场合有不同的应用。叁是面向信息安全应用的异质多核设计的实现问题。这里主要讨论在实际设计芯片中所遇到的一些具体问题,诸如更准确的静态时序分析,时钟串扰,电源分布,以及衬底漏电,短沟道效应等。设计中存储器所占的功耗已经是整个设计的40%。文中将全定制的寄存器堆与设计中办定制的寄存器比较,特别指出全定制寄存器堆的优越性。

熊凯[8]2010年在《基于65nm工艺X处理器高速寄存器文件的全定制设计与实现》文中提出随着处理器主频的不断提升,其性能瓶颈已经转移到了存储部件和I/O接口部件。寄存器文件作为微处理器内核的关键部件,处于存储层次的顶层,是访问速度要求最高的存储部件。因此,高速寄存器文件的设计对处理器的性能提升具有重要意义。X微处理器是一款64位多核多线程的高性能微处理器,同时也是一款非常优秀的浮点处理器,其浮点寄存器文件的频率要求较高,规模较大,是整个微处理器设计的一个重点。鉴于目前半定制单元库中的寄存器文件性能难以满足设计要求,因此对其进行全定制设计。本文在65nm CMOS工艺下实现了一款2读2写端口,支持多线程的浮点寄存器文件,其规模为256字×78位。最差情况下的模拟结果表明:读出延时约为383ps,写入延时约为287ps,时钟频率可以达到2GHz。相比基于标准单元的半定制综合结果,时钟频率由1GHz提高到2GHz,优化了约1倍;面积由732857μm2缩小到400000μm2以下,优化了约45%;同时由于门控电源的应用,在功耗方面也有较大的改善,均达到了设计目标。本文设计从高速度与低功耗的角度出发,针对影响寄存器文件速度的主要因素进行了优化,同时对低功耗设计技术的方面也进行了应用,主要创新点如下:1.结合该浮点寄存器文件容量较大且支持多线程的特点,采用8线程并行读出后再进行选择的策略,有效的减小了关键路径的延时和总功耗。2.由于该寄存器文件共有256字,采用两级译码结构来并行实现8-256的译码,可以加快读写译码的速度,进而提高整个电路的性能。3.采用快速的动态地址比较电路来解决读写冲突的问题,若同一周期对同一浮点寄存器文件进行读写操作则只响应写操作。4.将门控电源技术应用于该存储阵列,可以使整个电路降低大约59%的待机功耗和12%的工作功耗,达到了低功耗的设计目标。

宋芳芳[9]2010年在《多端口寄存器文件的全定制设计与实现》文中提出寄存器文件是微处理器的关键部件,其性能直接决定微处理器的性能。现代计算机体系结构的不断发展对寄存器文件的端口数目和规模提出了更高要求。基于其高性能、低功耗、较小面积的设计要求,采用全定制的设计方法进行多端口寄存器文件的设计与实现。本文主要工作和贡献集中体现在以下几个方面:首先,完成了0.13μm CMOS工艺、具有22个端口(13读/9写)的32×32位寄存器文件的优化设计,达到了600MHz的设计目标。基于逻辑努力的方法对译码器进行优化;将存储单元阵列改成读、写分开的组织结构,增强了功能排错能力;增加条件寄存器模块,快速输出判零信号用于各功能部件,从而加快了操作速度;同时,将时钟树进行简化,既减小了时钟的传播延时,又减小了时钟偏斜;还采用了低阈值和低功耗设计技术。模拟验证表明,译码单元面积压缩16%,延时减小20%;定向通路数据选择模块面积压缩11.3%,延时减少13.2%;寄存器文件总面积减少14.2%,功耗优化3.5%。其次,完成了一款基于0.13μm CMOS工艺、具有16个端口(10读/6写)的16×32位寄存器文件的全定制设计,并建立了时序视图。为实现其高可靠性,全部采用静态互补CMOS电路和传输管电路,不使用低阈值管;针对全芯片中ET“单步调试”的功能特点,专门实现了ET对寄存器文件的访问。经模拟验证,在最差环境下,该寄存器文件功能正确,IR Drop仅为1.67%,达到高可靠性、频率300MHz的设计目标。再次,介绍了基于SKILL语言的电路图迁移技术,着重介绍了基于版图设计工具Laker的版图快速迁移技术。课题完成了基于0.13μm工艺、具有16个端口(10读/6写)的16×32位高可靠性寄存器文件的设计迁移,将其设计迁移到90nm工艺。最后,对寄存器文件的验证方法进行了分析总结。本课题中提出了采用NC-Verilog与SpiceTime相结合的全定制设计功能模型的提取方法,建立了层次清晰的门级网表模型。针对寄存器文件“多读多写”的功能特点,开发了一套新的测试向量,代码覆盖率为100%。

王丽娟[10]2012年在《全定制宏模块自动时序建模技术的研究与实现》文中认为YHFT-DX微处理器是一款高性能微处理器,其内核设计目标为800MHz。随着处理器主频的不断提高,半定制设计已不能满足设计目标,为了提高芯片性能,缩短设计周期,DX微处理器采用半定制/全定制混合的设计方法。对于处理器中的关键部件如运算部件寄存器文件和内部Cache均采用全定制设计的方法,其余部分采用半定制设计。为了将全定制设计的模块顺利融入到半定制设计流程中,需要为全定制的模块建立时序模型。目前尚未有EDA工具支持全定制设计的时序建模技术,其主要依靠手工方式提取模块的特征参数。针对这些复杂的全定制设计模块,本文对深亚微米工艺条件下的时序建模方法进行了研究,并结合实践开发了具有自动化程度高、通用性强、可扩展强和智能化等特点的自动建模工具,提高了全定制设计时序建模的效率和准确率。本文在对指定延时块和SDF文件深入研究的基础上,完成了全定制模块指定延时块的描述工作,在逻辑网表中实现了模块时序信息的反标,根据反标后电路中单元和互联线的实际延时信息实现了精确的逻辑模拟,进而验证了DX微处理器的功能和性能。通过编写的程序实现了逻辑网表指定延时块的自动描述,进一步提高了工作效率。本文的主要工作有:1、针对组合逻辑宏模块提出了通用性较强的自动时序建模方法,该方法适合任何组合逻辑宏模块的时序建模;2、在组合逻辑宏模块时序建模方法的基础上,提出了时序逻辑宏模块自动时序建模的方法;3、针对全定制设计宏模块结构复杂、端口多的特点,通过程序自动完成全定制宏模块逻辑网表中指定延时块的描述。

参考文献:

[1]. 寄存器文件的研究与全定制实现[D]. 刘龙. 国防科学技术大学. 2004

[2]. 高性能低功耗多端口寄存器文件研究与全定制实现[D]. 熊保玉. 复旦大学. 2011

[3]. 高性能DSP关键电路及EDA技术研究[D]. 李振涛. 国防科学技术大学. 2007

[4]. 40nm工艺多端口寄存器文件的全定制设计与实现[D]. 刘荣华. 国防科学技术大学. 2013

[5]. CMT处理器高速缓存的优化技术[D]. 马鹏勇. 国防科学技术大学. 2007

[6]. 支持多线程并行的整数寄存器文件全定制设计[D]. 肖伟. 国防科学技术大学. 2010

[7]. 高性能低功耗SoC设计以及寄存器堆的应用[D]. 李毅. 复旦大学. 2011

[8]. 基于65nm工艺X处理器高速寄存器文件的全定制设计与实现[D]. 熊凯. 国防科学技术大学. 2010

[9]. 多端口寄存器文件的全定制设计与实现[D]. 宋芳芳. 国防科学技术大学. 2010

[10]. 全定制宏模块自动时序建模技术的研究与实现[D]. 王丽娟. 国防科学技术大学. 2012

标签:;  ;  ;  ;  ;  ;  ;  ;  

寄存器文件的研究与全定制实现
下载Doc文档

猜你喜欢