首页>汽车科技 > 正文

Achronix新品发布会:为最佳人工智能

随着大数据、人工智能、物联网、5G等新兴技术的快速发展,这都为FPGA的提供了新的发展机遇,11月27日,Achronix Speedcore7t新品发布会在北京举行,Achronix市场营销副总裁Steve Mensor为我们介绍了全新一代7nm eFPGA IP产品及解决方案。

据了解,Achronix是一家私有的、采用无晶圆厂模式的半导体公司,于2004年成立,总部位于美国加利福尼亚州圣克拉拉市,公司开发自己的FPGA技术,该技术是Speedster22i FPGA及Speedcore eFPGA技术的基础,Achronix的所有FPGA产品均由其ACE设计工具提供支持,该工具还集成了对Synopsys Synplify Pro工具的支持。

据Steve Mensor介绍,Achronix长期以来在可编程逻辑领域总是不断创新,这也能在用于人工智能、机器学习和网络硬件加速应用的第四代Speedcore eFPGA IP中得到体现,为业界树立了领先性能、功耗和成本的标准,Speedcore嵌入式FPGA IP成为业界唯一经过流片验证过的嵌入式FPGA技术。

1.jpg

FPGA的开发相对于传统PC、单片机的开发有很大不同。FPGA以并行运算为主,以硬件描述语言来实现;相比于PC或单片机(无论是冯诺依曼结构还是哈佛结构)的顺序操作有很大区别,也造成了FPGA开发入门较难,FPGA开发需要从顶层设计、模块分层、逻辑实现、软硬件调试等多方面着手。

Steve Mensor认为,如今的摩尔定律正在持续放缓,通信网络带宽在急剧增加,物联网时代意味着每秒将有数万以次的计算,这无疑对现阶段处理器的性能提出了全新的门槛,对此需要针对特定应用的数据集和架构。

Steve Mensor表示,在Speedcore Gen4架构中,Achronix将机器学习处理器(MLP)添加到Speedcore可提供的资源逻辑库单元模块中。MLP模块是一种高度灵活的计算引擎,它与存储器紧密耦合,从而为人工智能和机器学习(AI / ML)应用提供了性能/功耗比最高和成本最低的解决方案。

据Steve Mensor介绍,FPGA最适合AI/ML多元应用场景,因为ASIC在应用上不具备灵活性,GPU更适合云端计算,而FPGA则最适合在边缘计算。

此外,Steve Mensor表示,工艺也是决定算力不可或缺的因素之一。先进的制程工艺可以让芯片性能得到提高,并且功耗会降低,目前市面FPGA芯片基本都是基于20nm和28nm的工艺,无法满足未来对于算法的要求,Achronix公司的FPGA硬件加速器器件和高性能嵌入式FPGA半导体知识产权一直以来都走在FPGA工艺技术的前列,Steve Mensor还透露,Achronix将于2019年下半年提供用于台积电16nm和12nm工艺节点的Speedcore Gen4 eFPGA IP。

据了解,此次Achronix推出的Speedcore Gen4将性能提高了60%、功耗降低了50%、芯片面积减少65%,同时保留了原有的Speedcore eFPGA IP的功能,即可将可编程硬件加速功能引入广泛的计算、网络和存储应用,实现接口协议桥接/转换、算法加速和数据包处理。

Steve Mensor表示,Speedcore采用了一种模块化的架构,它可根据客户的要求轻松配置其大小,Achronix使用其Speedcore Builder工具来即刻创建新的Speedcore实例,以便满足客户对其快速评估的要求。

除了在性能上的强悍表现,解决带宽爆炸问题、最佳的人工智能/机器学习加速器、架构性创新提高系统性能也是Speedcore Gen4的几大亮点。

解决带宽爆炸问题

固定和无线网络带宽的急剧增加,加上处理能力向边缘等进行重新分配,以及数十亿物联网设备的出现,将给传统网络和计算基础设施带来压力。这种新的处理范式意味着每秒将有数十亿到数万亿次的运算。传统云和企业数据中心计算资源和通信基础设施无法跟上数据速率的指数级增长、快速变化的安全协议、以及许多新的网络和连接要求。传统的多核CPU和SoC无法在没有辅助的情况下独立满足这些要求,因而它们需要硬件加速器,通常是可重新编程的硬件加速器,用来预处理和卸载计算,以便提高系统的整体计算性能。经过优化后的Speedcore Gen4 eFPGA已经可以满足这些应用需求。

最佳的人工智能/机器学习加速器

除了计算和网络基础设施的通用要求之外,人工智能/机器学习还对高密度和针对性计算产生了显著增加的需求。与以前的Achronix FPGA产品相比,新的Achronix机器学习处理器(MLP)利用了人工智能/机器学习处理的特定属性,并将这些应用的性能提高了300%。这是通过多种架构性创新来实现的,这些创新可以同时提高每个时钟周期的性能和操作次数。

新的Achronix机器学习处理器(MLP)是一个完整的人工智能/机器学习计算引擎,支持定点和多个浮点数格式和精度。每个机器学习处理器包括一个循环寄存器文件(Cyclical Register File),它用来存储重用的权重或数据。各个机器学习处理器与相邻的机器学习处理器单元模块和更大的存储单元模块紧密耦合,以提供最高的处理性能、每秒最高的操作次数和最低的功率分集。这些机器学习处理器支持各种定点和浮点格式,包括Bfloat16、16位、半精度、24位和单元块浮点。

用户可以通过为其应用选择最佳精度来实现精度和性能的均衡。

为了补充机器学习处理器并提高人工智能/机器学习的计算密度,Speedcore Gen4查找表(LUT)可以实现比任何独立FPGA芯片产品高出两倍的乘法器。领先的独立FPGA芯片在21个查找表可以中实现6x6乘法器,而Speedcore Gen4仅需在11个LUT中就可实现相同的功能,并可在1 GHz的速率上工作。

架构性创新提高系统性能

与上一代Speedcore产品相比,新的Speedcore Gen4架构实现了多项创新,从而可将系统整体性能提高60%。其中查找表的所有方面都得到了增强,以支持使用最少的资源来实现各种功能,从而可缩减面积和功耗并提高性能。其中的更改包括将ALU的大小加倍、将每个LUT的寄存器数量加倍、支持7位函数和一些8位函数、以及为移位寄存器提供的专用高速连接。

其中的路由架构也借由一种独立的专用总线路由结构得到了增强。此外,在该路由结构中还有专用的总线多路复用器,可有效地创建分布式的、运行时可配置的交换网络。这为高带宽和低延迟应用提供了最佳的解决方案,并在业界首次实现了将网络优化应用于FPGA互连。

标签: Achronix 人工智能

推荐DIY文章
性能旗舰一加 10 Pro首销战报出炉 1秒破亿
一加 10 Pro重磅发布,最强性能旗舰10至名归
千万销量千家售后 一加多触点布局国内市场
科技加持,未来已来,“头号玩家”不再是科幻
一加 10 Pro发布在即,性能屏幕影像全方位提升
一加中国区新任总裁李杰 :做好品牌与用户之间的连接器
精彩新闻

超前放送