公司简介

高端多核 AI 加速器,针对 4 到上百 TOPS 的神经网络推理工作负载

Cadence® Tensilica® NNA 多核加速器平台是由多个(1 到 8 个)NNA 110 单核 IP 组成的可配置 IP 集群。NNA 多核加速器内部的专用硬件计算加速器利用了真正的随机稀疏性、张量压缩/解压等功能,提供了一个整体的高端人工智能加速器解决方案。一个单一的 NNA 多核集群可以从 256 扩展到 16K 8x8 MAC多个这样的集群可以结合起来,提供多达上百 TOPS 的性能。NNA 110 多核加速器的交付包括完整的 RTL IP、多核工作负载映射器工具链和用于benchmark测试的仿真器。NNA 多核加速器是把所需的IP打包在一起,可帮助客户更快将产品推向市场。

 

 

hierarchical-nna-multi-core

核心优势

可扩展、可配置的硬件和软件完整解决方案

为可以利用硬件 IP、软件工具链和仿真器环境的客户加快上市速度

真正的稀疏计算引擎和张量压缩

利用激活/权重随机稀疏性和无损压缩/解压缩逻辑

可配置的内部 SRAM,降低了整体 AXI 带宽消耗并提高了性能

最大限度地减少跨外部系统总线的数据移动,从而大大降低整体功耗

以最小的面积和功耗实现一流的推理延迟和吞吐量

在各种工作负载的所有 KPI 方面实现从单核到多核的线性扩展

端到端的完整 XNNC 多核工作负载映射器

优化工作负载分区,在空间和时间轴、矢量化方案和资源利用方面进行优化

硬件和软件混合精度支持

支持 8 位/16 位量化格式,精度接近浮点模型保真度

主要功能

  • 单集群可扩展设计,范围从 4 到 32 TOPS
  • 叠加多个集群以实现上百 TOPS 的性能
  • 支持各种带宽配置、AXI 总线宽度和时钟速率
  • 用于与外部主处理器通信的 AXI 端口
  • 内部可配置 SRAM,范围从 1 到 16MB
  • 内置运行时基于稀疏性的性能加速
  • 内置运行时张量带宽压缩/解压缩逻辑
  • 使用 Tensilica CPU 内核执行控制代码和管理平面软件,控制器开销很小
  • 包括内部同步机制以跨内核进行协调
  • 完整的软件多核映射器,实现粗粒度任务级并行化
  • 支持通过各种框架训练的神经网络,如 Tensorflow、ONNX、PyTorch、Caffe2、TensorflowLite 等

Support

Cadence is committed to keeping design teams highly productive with a range of support offerings and processes designed to keep users focused on reducing time to market and achieving silicon success.

Free Software Evaluation

Try our SDK Software Development Toolkit for 15 days absolutely free. We want to show you how easy it is to use our Eclipse-based IDE.

Apply Now

Training

Our hands-on training has been demonstrated to dramatically speed up the understanding of Tensilica tools and best use of the products.

Browse Catalog

Online Support

Get 24x7 online access to a knowledgebase of the latest articles and technical documentation. (Login Required)

Access Now

Xtensa Processor Generator (XPG)

The Xtensa Processor Generator (XPG) is the heart of our technology - the patented cloud-based system that creates your correct-by-construction processor and all associated software, models, etc. (Login Required)

Launch XPG