YD T 3944-2021 人工智能芯片基准测试评估方法.pdf

上传人:孙刚 文档编号:1528598 上传时间:2022-03-08 格式:PDF 页数:16 大小:1.43MB
下载 相关 举报
YD T 3944-2021 人工智能芯片基准测试评估方法.pdf_第1页
第1页 / 共16页
YD T 3944-2021 人工智能芯片基准测试评估方法.pdf_第2页
第2页 / 共16页
YD T 3944-2021 人工智能芯片基准测试评估方法.pdf_第3页
第3页 / 共16页
YD T 3944-2021 人工智能芯片基准测试评估方法.pdf_第4页
第4页 / 共16页
YD T 3944-2021 人工智能芯片基准测试评估方法.pdf_第5页
第5页 / 共16页
亲,该文档总共16页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、 ICS 31.200 L56 YD/T YD/T 中 华 人 民 共 和 国 通 信 行 业 标 准 钓鱼网站监测与处置系统 企业侧系统能力要求 人工智能芯片基准测试评估方法 Evaluation method for artificial intelligence chip benchmark (报批稿) -发布 -实施 中 华 人 民 共 和 国 工 业 和 信 息 化 部 发 布 XX/T XXXXXXXX II 目 次 前 言 .III 引 言 .IV 人工智能芯片基准测试评估方法 .1 1 范围 .1 2 规范性引用文件 .1 3 术语、定义和缩略语 .1 3.1 术语和定义 .1

2、 3.2 缩略语 .2 4 基准测试方案概述 .2 4.1 基准测试框架 .2 4.2 评测对象 .3 4.3 基准测试的评测原则 .3 4.4 基准设置的主要方案 .4 5 测试场景 .4 5.1 图像分类 .4 5.2 目标检测 .4 5.3 超分辨率 .4 5.4 图像语义分割 .4 5.5 人脸识别 .4 5.6 机器翻译 .5 6 评估方法 .5 6.1 评估方法概述 .5 6.2 测试环境 .5 7 人工智能芯片训练任务基准测试度量指标及评估方法 .6 7.1 度量指标 .6 7.2 基准测试说明 .6 7.3 参考实现 .6 7.4 测试方法 .6 8 人工智能芯片推理任务基准测

3、试度量指标及评估方法 .8 8.1 度量指标 .8 8.2 基准测试说明 .9 8.3 参考实现 .9 8.4 测试方法 .10 YD/T XXXXXXXX 前 言 本文件按照 GB/T 1.1-2020 给出的规则起草。 本标准由中国通信标准化协会提出并归口。 请注意本标准的某些内容可能涉及专利。本标准的发布机构不承担识别这些专利的责任。 本标准起草单位 : 中国信息通信研究院、南京新一代人工智能研究院、西安交通大学人工智能与机器人 研究所 、 华为技术有限公司 、 深圳市腾讯计算机系统有限公司 、 阿里云计算有限公司 、 深圳鲲云信息科技有 限公司、清华大学、安谋科技 (中国 )有限公司、

4、中科寒武纪科技股份有限公司、赛灵思电子科技(北京)有 限公司 、 英特尔 (中国 ) 有限公司 、 颖脉信息技术 (上海 ) 有限公司 、 上海海思技术有限公司 、 北京百度网 讯科技有限公司、上海燧原科技有限公司、北京地平线机器人技术研发有限公司 本标准主要起草人:张蔚敏、刘硕、张哲煜、孙明俊、任鹏举、关贺、于潇宇、张龙、游亮、潘逢治、 刘建航 、 杜子东 、 汪玉 、 葛广君 、 叶挺群 、 沈林杰 、 牛昕宇 、 郑魁 、 张亚军 、 高剑林 、 章恒 、 方绍峡 、 王凯 、 李亿、徐剑威、石恒、罗航、曾洪博、程智锋。 YD/T XXXXXXXX 引 言 基准测试作为一种客观的评价方式

5、 , 在计算机体系架构的发展中扮演着重要的角色 , 有效地推动着 面向不同方向的硬件和软件设计的演进。 专用的 AI 加速芯片或其它一些拥有强大计算能力的 IP 应用越发广泛 , 成为人工智能时代不可或缺 的一环, 因此迫切需要一套方法能够横向对比这些 AI 加速芯片或整个 AI 解决方案的优劣。并且,基 于清晰指标体系的技术评测能够去伪存真 , 推动相关产业健康发展 。 人工智能芯片基准测试越来越受到 业界的关注 , 但目前国际上还没有成熟的相关技术规范和标准 。 人工智能芯片基准测试体系与方法的建 立 , 能够明确评测指标 , 客观反映当前 AI 加速器能力现状 , 并从技术层面进行客观比

6、对 。 为芯片企业 提供第三方评测结果的同时,也为应用企业提供选型参考。 本标准通过制定通用方法来衡量用于训练或推理任务的人工智能软硬件的最佳性能 。 因相关人工智 能芯片技术正在快速发展,本文件仅作为评估参考。随着技术的发展,还将制定后续的相关规范。 YD/T XXXXXXXX 1 人工智能芯片基准测试评估方法 1 范围 本文件规定了人工智能芯片基准测试框架 、 评测指标及评估方法 , 主要包括基本信息披 露和技术测试。 本文件适用于芯片厂商或检测机构对具有人工智能算法加速能力的处理器或加速器的 基准测试工作。 2 规范性引用文件 下列文件对于本文件的应用是必不可少的 。 凡是注日期的引用文

7、件 , 仅所注日期的版本 适用于本文件 。 凡是不注日期的引用文件 , 其最新版本 (包括所有的修改单 ) 适用于本文件 。 GB/T 5271.28-2001 信息技术 词汇 第 28部分:人工智能 基本概念与专家系统 ISO/IEC TR 29119-11:2020(en) Software and systems engineering Software testing Part 11: Guidelines on the testing of AI-based systems 3 术语、定义和缩略语 3.1 术语和定义 下列术语和定义适用于本文件。 3.1.1 人工智能 Artific

8、ial Intelligence 表现出于人类智能(如推理和学习)相关的各种功能的功能单元和能力。 来源: GB/T 5271.28-2001, 28.01.02 3.1.2 深度学习 Deep Learning 机器学习中一种基于对数据进行 表征 学习的方法 , 通过组合低层特征形成更加抽象的高 层表示属性类别或特征,以发现数据的分布式特征表示。 来源: ISO/IEC TR 29119-11:2020(en), 3.1.26 3.1.3 基准测试 Benchmark 通过设计科学的测试方法 、 测试工具和测试系统 , 实现对一类测试对象的某项性能指标 进行定量的和可对比的测试。 3.1.4

9、 YD/T XXXXXXXX 2 工作负载 Workload 用于测定和评价人工智能芯片的基准测试任务,即包含特定 AI任务的基准测试程序。 3.1.5 度量指标 Metrics 用于评价人工智能芯片完成基准测试任务的具体指标。 3.1.6 测试集 Test Set 独立的数据集,用于在模型经由验证集的初步验证之后测试模型。 来源: ISO/IEC TR 29119-11:2020(en), 3.1.75 3.1.7 前 N 正确率 Top-N 图像识别算法给出前 N 个答案中有一个是正确的概率, N 常取值为 1 或 5。 3.1.8 交并比 IoU 模型所预测的检测框和真实标注信息 (gr

10、ound truth)的检测框的交集和并集之间的比例。 也被称为 Jaccard 指数。 注: IoU=监测框和标签框的交集面积 /监测框和标签框的并集面积 3.1.9 批次大小 Batch size 单次处理时输入的样本(如图像,时间序列等)数量。 3.1.10 模型计算量 Model operations 输入单个样本 , 模型进行一次完整的计算所发生的运算个数 。 (如果是浮点操作数 , 则 单位 为 FLOPs,如果是定点操作数,则单位 为 OPs)。 3.2 缩略语 下列缩略语适用于本文件。 AI 人工智能 Artificial Intelligence BLEU 双语评估替补 Bi

11、lingual Evaluation Understudy DUT 被测设备 Device Under Test FLOPs 浮点运算数 floating point of operations FPS 每秒处理帧数 Frame Per Second MAC 乘累加单元 Multiply and Accumulate YD/T XXXXXXXX 3 mAP 均值平均精度 Mean Average Precision NMS 非极大值抑制 Non-maximum Suppression OPs 操作数 OPerations ROC 受试者工作特征曲线 Receiver operating cha

12、racteristic curve SDK 软件开发工具包 Software Development Kit SSIM 结构相似性 Structural SIMilarity 4 基准测试方案概述 4.1 基准测试框架 基准测试框架如图 1所示。 图 1 基准测试框架 4.1.1 工作负载 为指定测试场景下,使用神经网络模型完成训练或推理任务的测试例。 4.1.2 AI 框架 用于实现相关人工智能方法的软件框架 , 包含 TensorFlow、 PyTorch 等这样的深度学习 框架, 以及面向移动端或推理任务的框架如 TensorFlow Lite、 TensorRT 等。这些框架使得 我们

13、能够建立深度学习模型完成训练或推理任务。 4.1.3 硬件调度 SDK 硬件调度 SDK 即向上能支持 AI 框架, 向下能提供调度和使用包括 CPU、 GPU、 DSP、 NPU 等人工智能计算所需的硬件资源。 4.1.4 处理器硬件系统 搭载人工智能芯片的计算物理设备, 呈现形态包括 CPU、 GPU、 ASIC、 FPGA 等芯片, 及其构成的计算服务器和移动终端设备等。 4.2 评测对象 YD/T XXXXXXXX 4 AI 加速器或计算卡,即专门用于处理人工智能应用中的大量计算任务的模块。呈现形 态包含但不局限于 GPU 、 FPGA 、 ASIC。按任务可分为训练和推理两类。 4.

14、3 基准测试的评测原则 4.3.1 实用性 基准测试方法应该能够产生积极效果。 4.3.2 公平性 基准测试方法应该通过指定规则和指标来提供公平的比较。 4.3.3 公正性 基准测试在评测过程中,始终以客观的科学的检测数据为依据。 4.3.4 可复测性 在不同的检测环境对同一被检测的量进行检测时,确保其测量结果的一致性。 4.4 基准设置的主要方案 基准测试方案采用测试处理器在完整的人工智能任务下的性能。以深度学习任务为例, 即只考察处理器对整个深度神经网络执行端到端的任务的能力。 5 测试场景 不同的参数量 /计算量对于处理器的计算、存储和通讯都有所不同,因此制定面向通用 的神经网络处理器的

15、测试用例时 , 这些典型网络都值得选取 , 下述场景为评估参考建议场景 与网络模型 。 考虑版本技术迭代 , 及被测对象差异性 , 测试场景选取应根据实际测试情况做 适当调整。 5.1 图像分类 任务描述:任务为准确识别图像中的物体类别。 参考实现:代表 模型为 MobileNet_v1, MobileNet_v2, ResNet_50 或 ResNet_101, Inception_v4, 数据集为 ImageNet。 准确率: 计算指定精度下的分类任务的 top1、 top5 正确率。 5.2 目标检测 任务描述:任务为在给定的图像中精确找到物体所在位置、并标注出物体的类别。 参考实现:代

16、表 模型为 faster R-CNN(网络模型基于 FPN 或 ResNet50), Yolo v3, MobileNet + SSD, Mask R-CNN, SSD, 数据集为 VOC2012 或 COCO2017。 准确率: 计算指定精度下的目标检测任务的 mAP、 IoU、 NMS。 5.3 超分辨率 YD/T XXXXXXXX 5 任务描述:任务为在给定缩小(例如 4倍)版本的情况下恢复原始照片。 参考实现:代表模型为 VDSR,数据集为 VOC2012。 准确率 : 计算在给定缩小版本的情况下恢复原始照片任务的 PSNR, SSIM作为超分辨率 的性能评价指标。 5.4 图像语义分

17、割 任务描述 : 任务为将像素按照图像中表达语义含义的不同进行分组( Grouping)分割 ( Segmentation) 参考实现:代表模型为 Deeplabv3+,数据集 VOC2012或 Cityscapes。 准确率:计算指定精度下的图像语义分割任务的 IoU作为性能评价指标。 5.5 机器翻译 任务描述:任务为将一种自然语言 (源语言 )转换为另一种自然语言 (目标语言 )。 参考实现:代表模型为 seq2seq, BERT, Transformer等,数据集为 Wikipedia或 WMT English-German。 准确率:计算指定精度下的翻译任务的指标 BLEU。 6 评

18、估方法 6.1 评估方法概述 人工智能芯片基准测试的评测方法包括材料检查和技术测试两类测评方法,具体如下 : 6.1.1 材料检查 基本信息评估主要采用材料审查的方式 , 对参评设备基本信息的真实性进行验证 。 芯片 基本信息包括芯片名称、基本描述、功能说明等等。 通过的准则: 必选项目, 企业必须提交材料进行审查 ; 可选项目,企业可以根据自身情况提交相应材 料进行审查;如表 1所示, 由参评企业提供相关材料主要包括: 表 1 人工智能芯片基准测试材料检查表 项目 是否必选 提交材料 芯片基本信息 芯片名称、版本号 必选 信息介绍 芯片功能说明 必选 同上 芯片外形及尺寸 必选 同上 芯片功

19、耗情况 必选 同上 支持的操作系统及版本 必选 同上 支持的深度学习框架 必选 同上 知识产权状况说明 可选 同上 行业实施案例 可选 介绍相关应用情况 6.1.2 技术测试 技术测试是指使用预定的方法 /工具使测评对象产生特定的结果,将运行结果与预期的 结果进行比对的过程,主要包括手工验证、工具测试等测试操作。 YD/T XXXXXXXX 6 6.2 测试环境 图 2 测试环境示意图 如图 2所示 , 测试 PC机通过 DUT的接口与其相连 , 示波器正负极与 DUT连接 , 通过基准 测试工具对 DUT时间及性能评价指标进行测试,功耗软件测试工具对 DUT进行示波器反馈 电流电压结果进行功

20、耗分析。 7 人工智能芯片训练任务基准测试度量指标及评估方法 7.1 度量指标 7.1.1 训练时间 在特定数据集上训练一个模型使其达到目标准确率 时的训练时间 (不包括预处理和模型 加载时间),一般是运行次数去掉最低和最高的数字取平均值。 7.1.2 准确率 指在训练集上的准确率 。 对于具体的应用场景 , 指定数据集 , 给出网络结构和超参数配 置,查看训练能够在一定的迭代次数后(训练时间内),能否达到规定的准确率。 7.1.3 DUT 训练功耗 指训练运算过程中, DUT 的功耗。 7.1.4 线性加速比 指线性加速比是指增加芯片数量时,实际 FPS与理论 FPS的比值,用于反映芯片分布

21、式 训练扩展能力 。 定义单卡的 FPS为 FS, 当使用 P张卡进行测试时 , 其理论 FPS为 P FS, 实际 FPS 为 Q FS。 线性加速比 =Q/P (1) 其中,线性加速比的取值范围应该为 (0,1。 P和 Q为加速卡实际使用数量和理论数量,单位:个。 7.1.5 训练计算成本 在给定的测试环境下,系统并发输入给定的 n个数据样本,在训练时间 T情况下, 所消耗的 AI芯片资源成本。 训练 计算成本 = 芯片资源成本T (2) YD/T XXXXXXXX 7 7.2 基准测试说明 7.2.1 数据集 要求披露训练集和测试集的占比,训练数据的顺序分布,数据预处理方式。 7.2.2

22、 模型 要求统一选定模型的超参数、权重和偏差初始化及权重格式 (fp64、 fp32、 fp16)。 7.3 参考实现 本节给出人工智能芯片训练任务的基准测试参考测试场景,目标准确率与测试数据集 。 测试场景 数据集 目标准确率 模型 5.1 ImageNet (224x224) 74.9% Top-1 Accuracy ResNet_50 5.2 COCO 2017 23% mAP SSD 5.2 COCO 2017 0.377 Box min AP, 0.339 Mask min AP Mask R-CNN 5.5 WMT English-German 25.0 BLEU Transfor

23、mer 7.4 测试方法 本节给出人工智能芯片训练 任务的基准测试参考测试用例 (以基于 ResNet50模型的图像 分类任务为例)。 测试编号 7.4.1 测试场景 5.1 图像分类任务 测试项目 基于 ResNet50 模型的图像分类任务 测试目的 测试具有深度学习加速能力的处理器在 特定 AI 框架下图像分类任务 , 达到目标准确率时的训练时间、功耗、以及线性加速比等指标。 前置条件 模型名称( AI 框架) ResNet_50( AI 框架名称 +版本号) 模型参考实现 应指定网络结构和运行超参数 , 或附模型参考实现链 接 精度 数据类型, 例如 FP32 目标准确率 具体准确率数值

24、, 例如 Top-1 =74.9% 数据集 数据集名称 +数量 系统 系统名称 +版本号, 例如 Ubuntu 16.04 训练框架( SDK) 名称 +版本号 Batch size 取值 2n, n 取值为自然数 测试步骤 步骤 3) -4)循环进行,在准确率大于条件值后(与目标准确率误差 1%) , 进入 5) 完成一次训练 ; 每次训练完成后, 返回 2) ,如训练次数已满足要求 , 直接运行 6) 1) 训练启动 2) 训练次数计数 3) Epoch 计数 4) 准确率评估(测试集上) 5) 日志生成 YD/T XXXXXXXX 8 6) 训练动态指标记录 7) 训练结果生成 程序运行

25、逻辑 测试代码实现逻辑参考如下: 1) 数据集预处理 2) 任务初始化(数据加载、模型加载) 3) 开始监测各指标 4) 开始计时 5) 迭代训练 6) 计时结束 7) 精度验证 8) 各指标监测结束 9) 测试指标 Log 输出 预期结果 返回执行任务的训练时间 日志打印格式 * /*芯片名称 */ processor_name: /*场景名称 */ test_name: /*模型名称 */ model_name: /*训练次数 */ No.: /*batch 的大小 */ batch size: /*训练时间 */ Time : /*准确率 */ top1: * 测试结果 训练次数 硬件名

26、称 加速卡数量 准确率 batch size 训练时间 1 2 3 备注 8 人工智能芯片推理任务基准测试度量指标及评估方法 8.1 度量指标 8.1.1 推理时延 YD/T XXXXXXXX 9 推理时延指推理任务从执行到终止的运行时间 , 即从内存发送样本数据到模型输出推理 结果的时间间隔。 前置条件: 需披露测试时的 batch size。 8.1.2 吞吐量 吞吐量是指对网络 、 设备 、 端口 、 虚电路或其他设施 , 单位时间内成功地传送数据的数 量,在图像处理领域,吞吐量是单位时间内可以处理的图像数量,即 每秒帧率 FPS。 前置条件:需 披露测试时的 batch size。 8

27、.1.3DUT 推理功耗 指推理运算过程中, DUT 的功耗。 8.1.4 加速器利用率 指在给定应用场景下 , 实际测试的具体网络的推理计算量与厂商标称计算量的比值 。 加 速器利用率 =(吞吐量 *模型计算量 )/理论峰值算力。 说明:以 CNN网络为例, 模型计算量 =MAC*2(3) 8.1.5 能效比 指在给定应用场景下,实际测试的具体网络的吞吐量与执行任务功耗的比值。 前置条件:需披露测试时的 batch size。 说明:以图像处理任务为例,单位为: images/sec/watt (处理图像数量 /秒 /瓦特)。 8.1.6 主控核的负载使用统计 即统计在完成指定神经网络推理任

28、务时的主控核的负载使用统计,如 CPU占用率。 8.1.7 推理计算成本 在给定的测试环境下,系统并发输入给定的 n个数据样本,在推理时间 T情况下, 所消耗的 AI芯片资源成本。 推理计算成本 = 芯片资源成本T (4) 8.2 基准测试说明 8.2.1 测试系统环境 根据被测设备支持系统环境,可以为 Android、 Linux或者 iOS。 8.2.2 加速引擎的 SDK 提供神经网络加速引擎及其详细说明,提供接口函数包括初始化 Init(),预处理 PreProcess(), 加载模型 LoadModel(), 运行 Run(), 卸载 模型 UnloadModel()和后处理 Pos

29、tProcess()。 8.2.3 前置信息披露 YD/T XXXXXXXX 10 包含模型原始准确率,测试集图像大小和数量,及转换后模型精度(浮点 /定点)。 8.2.4 模型文件 提供原始训练模型如 , 同时提供相关信息包括模型类别 , 输入输出节点名 , 前处理时均 值及其归一化参数,张量信息 (输入及输出 ),通道信息 (RGB/BGR),数据格式 (NHWC 等 )。 8.2.5 参考输出 由于评估的应用场景及网络存在差异 , 评估的指标也各不相同 。 基准测试会根据被测对 象提供相应参考输出来测量被测加速器或处理器的深度神经网络处理能力。 8.3 参考实现 本节给出人工智能芯片推理

30、任务的基准测试参考测试场景,目标准确率与测试数据集 。 测试场景 数据集 模型 5.1 ImageNet ResNet_50, ResNet_101, Inception_v4, MobileNet_v1, MobileNet_v2 5.2 COCO 2017 Faster-RCNN (with FPN), Yolo V3, SSD 5.3 VOC2012 VDSR 5.4 VOC2012,Cityscape Deeplabv3+ 8.4 测试方法 本节给出人工智能芯片推理任务的基准测试参考测试 用例 (以基于 ResNet50模型的图像 分类任务为例)。 测试编号 8.4.1 测试场景 5.1 图像分类任务 测试项目 基于 ResNet50 模型的图像分类任务 测试目的 测试具有深度学习加速能力的处理器在 特定 AI 框架下的完成图像

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 标准规范 > 行业标准 > YD通信行业

copyright@ 2008-2019 麦多课文库(www.mydoc123.com)网站版权所有
备案/许可证编号:苏ICP备17064731号-1