1、道昌ICS 35.040 L 71 和国国家标准圭K.,.、中华人民GB/T 29268.2一2012月SO/IEC19795-2: 2007 生物特征识别性能测试和报告信息技术第2部分:技术与场景评价的测试方法Information technology-Biometric performance testing and reporting Part 2: Testing methodologies for technology and scenario evaluation (lSO/IEC 19795-2: 2007 ,IDT) 2013-06-01实施20 12 12-31发布发布中华
2、人民共和国国家质量监督检验检菇总局中国国家标准化管理委员会向14乱问川)四川E护2路JRgGB/T 29268.2-2012/ISO/IEC 19795-2: 2007 目次前言E引言.凹1 范围2 符合性.3 规范性引用文件.4 术语和定义.4. 1 生物特征数据.2 4.2 生物特征识别系统组件.2 4.3 生物特征识别系统中的人机交互.2 4.4 性能指标.3 5 技术评价和场景评价概述.3 6 技术评价.5 6.1 测试设计.5 6.2 构建合适的测试库.7 6.3 性能指标.9 6.4 报告127 场景评价.14 7.1 测试设计.147.2 测试群体.,.187.3 性能指标.19
3、 7.4 报告.20 8 技术和场景评价中的其他问题.22 8. 1 测试参与方.22 8.2 公平性.22 8.3 测试系统纳人依据.23 8.4 FAQ的使用.23 8.5 法律问题.23 8.6 测试源码发布.238. 7 供应商对测试报告的评论n附录A(资料性附录)主要技术测试类型的阶段和活动.24附录B(资料性附录)呈现、尝试和事务之间的关系.32 附录C(资料性附录)努力等级报告33附录D(资料性附录客户端-服务端测试. 35 附录E(资料性附录)多系统测试中系统间的交叉对比结果.37 I GB/T 29268.2-2012月SO/IEC19795-2: 2007 前GB/T 29
4、268(信息技术生物特征识别性能测试和报告分为下列7个部分z第1部分:原则与框架p一一第2部分E技术与场景评价的测试方法z一一第3部分z摸态特定性测试z一一第4部分z互操作性性能测试P一一第5部分z生物特征识别门禁系统的场景评价E一一第6部分z性能评价的测试方法p第7部分z卡上生物特征识别比对算法测试。本部分为GB/T29268的第2部分。本部分按照GB/T1. 1-2009给出的规则起草。本部分使用翻译法等同采用国际标准ISO/IEC19795-2:2007(信息技术生物特征识别性能测试和报告第2部分z技术与场景评价的测试方法儿请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别这
5、些专利的责任。与本部分中规范性引用的国际文件有一致性对应关系的我国文件如下z一-GB/T26237.2-2011 信息技术生物特征识别数据交换格式第2部分z指纹细节点数据(lSO/IEC 19794-2:2004,NEQ) 本部分由全国信息技术标准化技术委员会(SAC/TC28)提出并归口。本部分起草单位z中国电子技术标准化研究院、中国科学院自动化研究所。本部分主要起草人z袁理、冯敬、霍红文、耿力、李子青、陈水仙、金情、乔申杰、王里晴、郑小援、刘文莉。皿GB/T 29268.2-2012/ISO/IEC 19795-2: 2007 百I本部分涉及两类具体的生物特征识别性能测试方法z技术与场景评
6、价。生物特征识别中的大部分测试都可以归结为这两类。技术评价使用已经建立好的数据库来评价注册和比对算法,而场景评价则通过实时采集的方式同时评价传感器和算法。前者的目的是通过获取大量的比对分数和候选列表来得知算法的区分能力,后者用于测试待测系统在模拟环境中的性能,也包括系统的协作能力回本部分基于GB/T29268. 1-2012中的原则、框架和具体需求而提出,但是其中的理论和原则可以应用于更广泛的测试环境。本部分旨在为生物特征识别系统开发人员、部暑人员和用户提供套标准的测试方法,包括z生物特征识别性能测试设计、执行和报告。通过这套方法,可以获取各种技术在不同的使用场景和环撞下的基准性能。N GB/
7、T 29268.2-2012/ISO/IEC 19795-2: 2007 1 范围信息技术生物特征识别性能测试和报告第2部分:技术与场景评价的测试方法GB/T 29268的本部分规定了以下两个方面的要求z一一开发和详细地描述技术评价、场景评价的协议z一-执行和报告能反映生物特征识别相关参数的评价方法。本部分适用于生物特征识别系统和算法性能测试中的数据采集要求和建议、性能评价分析与报告。两种主要的性能评价类型为z技术评价和场景评价。2 符合性任何测试需遵守本部分中关于技术评价或场景评价的条款。在技术测试和场景测试中,同一词语的意思可能存在差异,所指范围会有所不同。此外,对于识别系统和验证系统,这
8、些词语同样存在差异。为了更清楚地表达此标准,这些词语在各章所指代的具体意思如表1所示。表1评价方法和比对类型在各章所服从的规则评价方法比对类型作用范围技术或场景识别或验证第5章和第8章技术识别第6章,除6.3.3之外技术验证第6章,除6.3.4之外场景识别第7章,除7.3.4之外场景验证第7章,除7.3.5之外3 规范性引用文件下列文件对于本文件的应用是必不可少的。凡是注日期的引用文件,仅注日期的版本适用于本文件。凡是不注日期的引用文件,其最新版本包括所有的修改单)适用于本文件。GB/T 29268. 1-2012信息技术生物特征识别性能测试和报告第1部分z原则与框架(lSO/IEC 1979
9、5-1:2006 ,IDT) ISO/IEC 19794-2 :2004信息技术生物特征识别数据交换格式第2部分z指纹细节点数据(lnformation technology-Biometric data interchange formats-Part 2 : Finger minutiae data ) 4 术语和定义GB/T 29268. 1-2012界定的以及下列术语和定义适用于本文件。1 GB/T 29268.2-2012/ISO/IEC 19795-2: 2007 4. 1 生物特征数据4. 1. 1 生物特征参考biometric reference 模板模型从用户的注册样本中提
10、取出特征,以一定形式存储的特征。4.2 生物特征识别系统组件4.2. 1 特征提取器feature extractor 用于从样本中提取特征的组件。4.2.2 生物特征参考生成器biometric reference generator 用于从样本中生成生物特征模板的组件。4.3 生物特征识别系统中的人机交互4.3. 1 适应性acclhnatization 在测试过程中,随着时间的增长,生物特征的某些特点可能会影响传感器处理样本的能力。4.3.2 努力等级effort level 在生物特征识别系统中,成功注册或民配所需的呈现、尝试和过程的次数。4.3.3 注册尝试cnrohrrent at
11、tempt 提交某测试人员的-.个或多个生物样本用于注册。注1:多个注册尝试组成一个注册事务,一个注册尝试包含多个注册呈现。注2:关于注册呈现、注册尝试、注册事务的关系,参见附录Bo4.3.4 注册尝试限制enr咀mentattempt Iimit 注册尝试的最大次数或最大时长。测试人员允许在注册事务终止之前进行注册。4.3.5 注册呈现enrolment presentation 提交某测试人员的一个生物特征用于注册。注z多个注册呈现可以构成一次注册尝试,一个注册呈现可能导致也可能不会导致一次注册尝试.4.3.6 注册呈现限制enrolment pr臼entationIimit 注册呈现的最
12、大次数或最大时长。测试人员允许在注册尝试终止之前进行注册。4.3.7 指南guidance 测试人员在注册或识别过程中,由管理员提供的指导。注z指南不包括在注册或识到过程中生物特征识别系统或设备绘出的反馈,比如z声音、视觉提示.2 GB/T 29268.2-2012/ISO/IEC 19795-2: 2007 4.3.8 熟练度habituation 测试人员对设备的熟悉程度。注z当测试人员对某个生物特征识别设备非常了解时,该人员称为熟练测试人员。4.3.9 比对尝试comparison attempt 提交某测试人员的一个或多个生物样本用于比对。4.3. 10 比对尝试限制compariso
13、n attempt Iimit 在比对尝试终止前允许的最大尝试次数或最大时长。4.3.11 比对呈现comparison presentation 提交某测试人员的一个生物特征用于比对。注2多个比对呈现可以构成一次比对尝试,一个比对呈现可能导致也可能不会导致一次比对尝试。4.3.12 比对呈现限制comparison presentation Iimit 比对呈现的最大次数或最大时长。测试人员允许在比对尝试终止前进行识别。4.4 性能指标4.4.1 无效样本的比率Cailure at source rate 在技术评价之前,手动或者自动对原始数据进行筛选,被丢弃的样本数占总样本的比例。示例s在
14、一批采集的人脸数据库中,那些不包含人脸的数据将被丢弃。5 技术评价和场景评价概述本部分涉及两种类型的评价方法z技术评价和场景评价。测试报告应说明其结果属于技术评价还是场景评价,或者既包含技术评价也包含场景评价。技术评价是指针对某种生物模态,采用事先准备好的原始样本对生物特征识别算法进行离线的评价。技术评价的作用在于,将用户行为、传感器和识别过程与识别算法评价进行分离,其优点为z一一能进行完全的交叉比对测试。在技术评价中,整个测试集合中的所有样本都能被测试到(比如,假冒测试),这样错误匹配率的基数可以达到附而不是N;能进行研究性的测试。由于技术评价没有实时性的要求,因此非常适合于研究和开发工作。
15、例如z在技术评价中得到的关于不同参数、设置、不同数据库的测量结果,根据这些结果来调整算法可以逐步提升性能p一一能进行多种实例和算法测试。采用同样测试流程、接口和指标,技术评价可以适用于多种实例测试(例如,三种人脸角度、多种算法测试(例如,多家厂商提供的算法)和多种组合测试F一一通过提供合适的测试样本,技术评价能测试人与传感器交互之后的所有模块,包括=质量控制、反馈模块、信号处理模块、图像层融合模块对于多模态或多实例生物特征识别技术)、特征提取及归一化模块、特征层融合模块、比对和分数层融合,分数J3一化模块s一一人与传感器交互的不确定性会使得测试具有不可重复性,为产品之间的对比测试带来复杂性。消
16、除这种人机交互因素,可以使得测试具有可重复性,而且离线的技术评价可以复现z3 GB/T 29268.2-2012月SO/IEC19795-2: 2007 一一若数据可用,对于经过数年采集得到的海量测试样本,技术评价也能够顺利实施。注1,以离线的方式建立注册数据库,可以更好地控制哪些样本用于哪次识别.注2,在技术评价中,总是首先将数据样本进行存储,然后离线进行处理。在场景评价中,对测试者来说交互过程应该是简单的,系统最好也对数据样本进行存储,但不是必须的.场景评价是指针对某种典型或模拟应用对系统进行整体地在线评价。场景评价的作用在于,整体评价整个系统的性能,包括人与传感器之间的交互、注册过程和识
17、别过程,其优点为z二一能度量额外的尝试和事务对系统注册和识别性能的影响z在收集注册和识别结果的同时,能测试系统的呈现生成和样本采集时间。注3,在线评价过程中,为了与实际应用保持一致,实验者可以减少样本采集数量以减少存储量。然而,最好保存在线测试中的数据,以便事后对结果进行离线分析。注4,测试生物特征识别系统应先采集图像或数据,基于这些数据才能生成模板和比对得分。这些数据可以用于在线的注册尝试、验证或识别,也可以用于离线注册、验证和识别.技术评价和场景评价的不同之处如表2所示。表2技术评价和场景评价的不同点技术评价场景评价测试内容生物特征识别组件(例如,比对、特征提生物特征识别系统取算法测试目标
18、在标准测试数据上测量算法的性能以模拟应用的方式测量系统的整体性能已知数据样本和样本源之间的关联,受排除数据采集错误和测试者的不合理行真实结果数据采集错误和被合并的数据集的交叉为之外,已知注册样本和系统决策之间点影响的关联测试过程元需测试者参与z测试者的行为是否受实验者的控制如果在生物特征数据采集过程受控,则受控(除非系统与测试者的行为元关认为受控,否则,认为非受控测试者是否能立即收到关于注册和元有识别的反馈结果再现住可再现部分可再现(当测试环境和人的因素完全可控时,可再现物理环挠的控制由生物特征数据采集环境决定可控测试者交互行为记录测试过程无需测试者参与记录在生物特征数据采集过程中可能被记录生
19、物特征识别组件的相对鲁棒性例如,生物特征识别系统的相对鲁棒性z报告的典型结果比对、特征提取算法),确定重要的性能指标z确定重要的性能指标整体模拟性能各种错误率z点到点的预计吞吐量z典型指标而不是整体性能z错误匹配率,错误不匹配率z大规模识别的适应性s采集失败率,注册失败率p大规模数据下的系统性能广义错误接受率,广义错误拒绝率约束合适的测试数据库,例如,使用多个传感可操作性,装配好的系统器采集,样本的标号可能是已知或未知的全体测试人员按测试褂议参与现场参与注5,表中是主要的不同点,在某些情况下会有少许出入.4 6 技术评价6. 1 测试设计6. 1. 1 目标GB/T 29268.2-2012月
20、SO/IEC19795-2: 2007 测试设计需要对系统的多个方面进行测试,包括z注册、采集、匹配功能。6. 1.2 系统实现若要测试某应用或某项操作的性能,应尽量精简地设计该测试中的所有功能从输入到输出)和过程(注册或验证。示例=若注册事务在实际应用中需要采集多张图像,则在技术评价中应该采用类似的过程。为了达到测试的目的,被测系统应该尽可能地返回每次比对尝试的得分。6. 1. 3 性能指标确定除了6.3中指定的指标外,实验者需要确定在评价中采用哪些额外的性能指标。设计时需要确定所有应生成的指标。实验者需要确定技术测试中所关注的比对类型,可以指定为下面列表中一种或多种za) 验证Fb) 开集
21、识别zc) 闭集识别。选定技术评价中采取何种比对方式之后,需要报告其理由。比对类型要适用于待测算法,只有这样具有某种具体比对类型的系统例如,监视列表识别系统),才能产生合适的结果类型。注2关于错误率公式,参见GB/T29268.1-2012中的第8章。6. 1. 4 实现的首要原则测试场景不应限制生物特征识别系统的实现方式,各供应商按各自的方式实现其功能,注z明确区分待测系统需要做什么?和待测系统如何做7这两个问题是离线测试的关键。明确测试人员和供应商的职责是首要的问题。对测试人员而言,应该将待测系统看作黑盒子,它的主要功能就是从输入图像产生决策,在任何情况下,其内部细节与测试人员都是不相干的
22、,应该保密。这个原则能促进对任意生物样本进行测试的方便性。示例1: 若指纹样本的采集精度为1000 dpi.而测试设备只能处理其一半的精度,则测试人员应该za) 不能对指纹进行降采样zb) 通知供应商需要在内部进行降采样.示例2:生物特征识别系统和设备可同时采集的非正面人脸图像集合,至少能以三种方式来处理g选择最佳图像、融合所有图像、合成三维模型.使用何种方式由系统或设备决定,而不是测试者.示例3:大多数自动指纹识别系统都采取了一种机制,将数据库按一定规则进行分区,在识别时仅需要搜索与用户相同的那一个区,这样可以取得高的吞吐量,但是也会损失一定的准确度.供应商通过调整分块参数决定来权衡利弊,每
23、组设置的好坏可以通过大量的重复实验来测量.示例4:在一项寻求多个指纹在识别系统中的作用的研究中,测试者不应该逐个采集样本然后将分数进行融合,而应该将所5 GB/T 29268.2-2012/ISO/IEC 19795-2 :2007 有图像组合成一个样本(例如=美国国家标准局ANSI-国家标准技术局NIST数据格式,或GB/T26237.2-2011中的一种适用生物特征交换封装框架作为输入,让生物特征识别设备在内部进行融合。详细信息,可以参考GB/T26237.2-2011中CBEFF相关实例的补充信息。关于美国国家标准局ANSI-国家标准技术局NIST数据格式,请参考ANSI/NIST-IT
24、L1-2000 NIST的特别出版物500-245.6. 1.5 针对供应商的信息开就策略在开始测试之前,测试人员需要明确叙述公开策略,说明哪些信息将会对供应商公开,时间段分为za) 测试设备配置、运输、安装之前:b) 运行时。6. 1. 6 识别尝试和验证尝试的不可交换性1对N识别的比对分数不能被直接作为1对1验证的结果,除非给予适当的解释。注,:在实际操作中系统性能通过测量用户尝试(拒绝或接受)的结果来得到。验证系统通过一系列事先声明自己身份的用户来测试.同样,识别系统通过1对多的搜索来测试。即使一次一对多搜索能得到一个完整的候选列表,但是该候选列表仍然是原子状态的,也就是说这个候选列表不
25、能看作由N次验证组成(不能用于计算验证性能注2:一次识别尝试不等价于N次1对1验证,因为通过将输入样本与另外的一批隐藏样本比对可以对分数进行归一化,这种群体归一化能提升验证性能.该方法对原始分数进行处理,能有效地降低错误接受率,相当于为每个用户设置了一个独立的阔值。该方法对性能和吞吐量进行了折衷,因为除1对1比对外,还引人了额外的1比M计算,此处M表示隐藏生物特征模板的个数.注3:群体归一化一般在设备内部进行,使用自定义的一个注册集作为隐藏样本.6. 1. 7 模型确认如果一个模型在实验测试中或在实验补充测试中被报告了其拟合或预测身份的性能,则该模型应一定程度地被验证,尽可能地包括完整的数据和
26、文挡。6. 1. 8 使用顺序测试场景需要定义测试数据的使用顺序。该顺序要适合于应用系统,系统需要按此顺序处理测试数据。注,:一般来说,事务是独立执行的,因此,系统需要执行完一次事务后才能启动下一次事务。注2:在注册之前,大多数生物特征识别系统会按顺序或单独使用生物特征设备利用户。注3:有些识别任务可能不是按顺序执行的,例如,批量识别一个封闭房间内的所有人,这种方式可以使问题复杂度降到线性。6. 1.9 测试准备6. 1.9. 1 系统安装和功能验证测试组应确认硬件和软件安装完毕、配置正确,应验证系统工作正常。注=在安装、配置和验证系统功能时,供应商可以参与。6. 1. 9. 2 数据准备在数
27、据准备中应确认,样本的一切元数据和身份信息例如z性别,年龄)被去除,保证这些信息对供应商不可见。否则,供应商可能利用这些信息在测试中造假。6. 1. 10 一般测试流程技术评价的一般测试流程如下z6 GB/T 29268.2-2012月SO/IEC19795-2: 2007 将注册样本转换为生物特征模板,这些数据可以线性存储s-一将识别和验证样本转换为样本特征z一一一验证尝试z将样本特征与生物特征模板进行比对F一一闭集识别尝试z搜索注册库,返回用户标识符列表;-一开集识别尝试z搜索注册库和z 返回一个或多个用户标识符z 返回空,表示在注册库没有找到测试者。注1:上述功能可以API层来实现,或通
28、过脚本来调用可执行文件。注2:附录A中描述了几种具体的技术评价类型及其流程.6.2 构建合适的测试库6.2. 1 概述技术评价的目的在于评测一种或多种生物特征识别算法的注册和比对性能。技术评价场景与测试数据是紧密相关的。6.2.2 注册唯一性库中的所有样本都与现实中的人有着对应关系。在评价中,不希望同一个人的样本被重复注册成不阔的身份。测试组需要保证测试库中的每个标识符对应不同的个体。当某个体在测试库中对应着多个标识符时,需要尽可能地清除或合并这类样本。否则,该测试将在每个标识符对应不同的个体假设下进行。注1:生物特征识别系统的目的是唯一地确定个体的身份。当某个个体的图像或信号数量超过1时,需
29、要将它们封装成样本,然后用于注册或比对。注2:构建识别系统时,个体样本数允许超过l(单模态或多模态).而且对每个样本分别注册,这种方式不具有实际价值,理由如下z识别需要在所有注册样本中进行搜索,然后产生候选列表。当有人存在分别注册的多个样本时,一般系统会自动在分数层以MAX规则进行融合,因为分数最高的样本最具有代表性。即使所有人的样本数相等,这种方式也应避免,因为融合个体多个样本的分数是供应商的责任,也最为合理.误差度量依赖于注册集的大小N.当注册集大小与实际人数不一致时,会导致误差度量错误.注3:本条不考虑一个测试对象对应多个注册模板单独注册)的情况,需要在测试场景和测试报告中注明.6.2.
30、3 重复数据采集与实验者对测试数据的权限相关,在测试过程中,每个测试对象可能需要进行多次数据采集。最大化事务和访问次数可以精确地测量出老化和习惯对生物特征的影响。6.2.4 测试对象身份实验者需要报告测试对象的身份及相关信息,至少包含如下内容za) 测试对象标识符的类型zb) 所采集的个人数据的数量和类型。6.2.5 提供的非生物特征信息如果可能,需要为待测系统提供元数据。在测试报告中需要说明所有已提供元数据的名称和类型。示例z这些数据可能是传感器相关数据(例如传感器设置、环攘(例如温度、湿度、测试对象相关数据例如性别、年龄)或其他相关信息。注z技术评价虽然不能覆盖实际应用中生物特征识别系统中
31、的各个方面,但是不应该故意回避某种测试.7 GB/T 29268.2-2012/ISO/IEC 19795也:20076.2.6 测试库的代表性设计评价场景时需要考虑,测试库中的数据是否适合于测试目标,测试报告中也需要对此进行记录。如果数据采集在测试组的监督或控制下进行,那么应该对实验者与测试者之间的交互情况进行记录,包括z适应性、培训、熟练度和指导。注,.假设在实际应用中可以持续采集到与测试集中相同格式和质量样本的情况下,技术评价的作用在于可以预测和估计系统的实际性能。注2.理论上,不同模态的数据采集具有相同的熟练度、适应性和指导等。6.2.7 测试库的纯净度当发生如下几种情况时,则认为测试
32、库或多或少地受到了污染za) 任何供应商拥有该测试库ab) 采用任何供应商提供的设备用于采集或处理该测试库,特别是指上述设各影响了测试库质量的情况,例如,抛弃某些样本zc) 某系统曾经在该测试库上进行过测试和调整。当不得不使用被污染的测试库时,需要在测试报告内注明。当某些供应商拥有样本数据时,这些数据不能用于评价。当某系统曾经在测试库上全部或部分)进行过测试和调整时,需要在测试报告内注明.注,.本条是必备的,因为通过作弊可以提升性能,注2.通过改变样本来防止样本重用一般来说是不够的,如果有任何老的样本存在,作弊还是有ij能发生。6.2.8 测试摩过期当某些被删系镜基于某些数据对系统进行了调整,
33、那些数据不应该在评价中重新使用.注,.通过数据保密很容易达到以七要求。注2.这项要求可能会带来额外的数据采集,可能费时费力。6.2.9 测试库验证验证是一个数据筛选过程,其目的是剔除那些不适合参与评价的数据,验证可能包括z检查测试者数据是否存在、数据格式是否正确。实验者需要报告测试者的数据是否已被验证,如果被验证,实验者需要细化数据验证中所采用的方法,需要报告数据剔除所采用的准则和比例。示例,.数据库质量控制可以在测试对象数据中用于去除的低对比度图像。示例2.在人脸识别中,那些不包含人脸的数据样本(示例s没人脸或全身照可能会被剔除s在指纹识别中,那些不清晰的指纹数据样本例如掌纹同样也会被剔除.
34、注,.某些种类的生物特征数据可能比其他种类的更容易验证,数据验证可能会导致测试结果出现偏差.注2.通过测试库验证来剔除数据与数据源失败是不同的.通常需要人为地判断那些被剔除的数据是元效的还是数据源失败。6.2.10 测试库的采集环境在数据采集过程中,实验环境是可以知道或指定的。一般会在针对某种特定的环境下进行采集,测试在这种环境下的性能,而不是在基准环境下进行。对环境的控制可能包括温度、光线、湿度和其他可GB/T 29268.2-2012/ISO/IEC 19795-2: 2007 能影响生物特征识别性能的因素。宜报告在测试库采集过程中与模态相关的环境信息,如下z一一温度z暴露程度P一一光线的
35、类型、方向和强度z一二环境噪声F一一震动。当上述信息无法获取时,实验者需要注明。注2关于影响性能的环撞因素,参见GB/T29268. 1-2012附录C中的C.2.6.6.2. 11 数据源失败离线测试基于事先存储好的生物特征样本进行,这些样本可能由实验中的某生物特征识别系统采集,也可能不是。测试报告需要公开在各个阶段与数据处理相关的所有信息。当样本被手动或生物特征识别系统自动丢弃时,需要报告数据源失败率CFailureAt Source rate,FAS)。注1:FAS可能与生物特征传感器和质量评价算法相关。注2:有时需要加入人工判断,例如,对于完全空白的图片可以不计算在FAS之内,除非该测
36、试有意使用这种图片模仿日常情况。6.3 性能指标6.3. 1 注册离线测试应记录注册失败率CFailureTo Enroll rate ,FTE) ,FTE是指测试人员在注册时产生的所有样本中被拒绝的比例。需要明确定义拒绝注册的准则。注1:在技术评价中,注册失败仅仅是现场采集中所有失败类型的一种。注2:一个系统可以以任何理由来判断注册是否失败。一种常见的理由是,由于数据的质量太低导致系统元法检测到所需的信号。注3:一个系统可以通过注册失败策略来获得更好的比对性能.这种平衡须通过对阿E和FNMR进行综合考虑。实验者应指明,一次成功的注册所需的最小样本数和最大样本数。对于每个待测生物特征识别系统,
37、实验者宜计算如下指标za) 注册质量分数直方图;b) 在不同的人群、不同的环境或其他逻辑划分方式条件下的注册失败率。6.3.2 采集失败离线测试需要记录在验证和识别尝试中,系统采集、定位或质量评价失败比例,这个比例称为采集失败率CFailureTo Acquire rate,FTA)。注1:采集失败率在比对过程中所处的地位,与注册失败率在注册过程中的地位等价,因此,与6.3.1中的注1和注2一样,在此也作类似定义。注2:根据采集失败率和错误匹配率(FMR)可以计算错误接受率(FAR).注3:在技术测试中,采集失败率通常由编码或比对组件产生,与失败尝试直接相关,实验者应指明用于创建特征所需样本的
38、最小需求值和最大允许值。采集失败率的计算公式参见GB/T29268.1-2012。6.3.3 验证指标对于待测验证系统,实验者应计算如下指标z9 GB/T 29268.2-2012/ISO/IEC 19795-2: 2007 a) 错误匹配率(FalseMatch Rates,FMR)和错误不匹配率(FalseNon-Match Rates,FNMR); b) 错误接受率(FalseAccept Rates. F AR)和错误拒绝率(FalseReject Rates, FR酌,除非系统的设计使得错误拒绝率、错误接受率与错误匹配率、错误不匹配率是等价的zc) 真实用户和假冒者执行的比对次数Fd
39、) 对于真实用户,如果可能,计算其注册和采集间隔时间的分布Fd 测试结果的不确定性,同时提供计算根据和公式。错误匹配率、错误不匹配率、错误接受率和错误拒绝率可以用接受者操作特性(ROC)曲线或检测错误权衡(DET)曲线来表示。用于产生这些结果的测试人员和事务数量也需要记录。注z对于那些不返回比对得分,只返回0/1决策的系统,只报告ROC或DET上某一点的性能。对于验证系统,实验者还需要计算如下指标:f) 分别计算真实用户和假冒者的比对得分分布zg) 在不同的人群、不同的环境或其他逻辑划分方式条件下的验证结果。6.3.4 识别指标对于所有识别系统而言,实验者应计算测试结果的不确定性,同时提供计算
40、根据和公式。对于闭集识别系统,实验者应计算如下指标za) 累积匹配特性(CumulativcMatch Charactcristics , CMC) ; b) 执行的查询次数。对于开集识别系统,实验者应计算如F指标fc) 识到j虚警率(FalsePositivc ldentification Rates , FPIR)和与其对应的识别漏检率(FalseNega-tive Identification R鼠目,FNIR)(阔值最好覆盖一定范围); d) 如果对数据库采用了分区策略,需要提供分区错误率和穿透率。对于识别系统,实验者应计算如下指标=的在不阔的人群、不同的环境或其他逻辑划分方式条件下的
41、识别结果。6.3.5 包含采集失败和注册失败的广义错误率6.3.5. 1 概述离线测试的中间结果为成对的分数集合,从中可以计算出错误匹配率(FalseMatch Rate,FMR)和错误不匹配率(FalseNon-Match Rate, FNM邸,这些中间结果需要与采集和注册失败进行整合。注1:因为系统可以通过放弃对低质量样卒的处理来提高其在错误拒绝和错误接受方面的表现性能,因此有必要将FAR、FRR、FTA和FEA进行整合,形成一个最终的性能评价指标s如果FTE和FTA为0,那么对于单次尝试事务来说,GFAR和GFRR与FMR和FNMR没有任何不同。如果FTE和FTA不为0,那么GFAR和G
42、FRR与FMR和FNMR不同,宜单独计算。注2:在某些测试中,采集和注册失败的样本会发放给供应商进行深入的研究。注3:对于那些不返回比对得分,只返回0/1决策的系统,只报告ROC和DET曲线上某一点的性能。注4:通过高的采集失败和注册失败率,在测试中或许可以得到很低的GFAR,但是GFRR会升高。6.3.5.2 单次尝试事务针对测试中的每个实现,实验者需要确定其在单次尝试事务下的广义错误接受率(Generalized FAR,GFAR)和广义错误拒绝率(GeneralizedFRR,GFRR)。当事务包含单次尝试时,GFAR可以通过在某个闺值t处,假冒者被接受的次数和参与比对的次数比例来计算=GFAR(t) = (1-FTA)FMR(t) (1-FTE) . . . . . . ( 1 ) 10 GB/T 29268.2-2012/ISO/IEC 19795-2:2007 同理,GFRR是在某个阔值t处用户被拒绝的比例,拒绝情况包括:采集图像失败、注册失败、被错误拒绝zGFRR(t) =FTA+ (1- FTA)FTE+ (1 -
copyright@ 2008-2019 麦多课文库(www.mydoc123.com)网站版权所有
备案/许可证编号:苏ICP备17064731号-1