数据集
数据集(Data Set)是数据的集合,在机器学习领域,通常指通过专门搜集、标注好的数据集合。有时也称样本集。
样本
样本(Sample)是数据集/样本集中的一个事件或对象。在人脸识别中,一张人脸图片就是一个样本。
训练集
训练集(Training Set)是事先标注好的样本集,用于训练模型。测试集与训练集需严格区分使用。
测试集
测试集(Test Set)是事先标注好的样本集,用于测试已训练好的模型效果。
相似度分数与匹配得分
相似度分数与匹配得分是 人脸比对、人脸搜索 等服务的判断依据,分数越高代表人脸越相似。通常会提供误识率为千分之一、万分之一的分数建议值,高于建议值则说明在对应误识率下建议结论为同一人,反之则不是同一人。
学习与训练
学习(Learning)与训练(Training)是从数据中学得模型的过程,这个过程通过执行某个学习算法来完成。
正样本、负样本
正负样本是相对的概念。在人脸识别中,假设有10张人脸图片,其中4张为 A 人,6张为 B 人。若目的是识别 A,则此时正样本数量为4,负样本数量为6;若目的是识别 B,则此时正样本数量为6,负样本数量为4。
召回率或查全率
人脸识别中,若测试集中正样本(来自同一个人的人脸图像)的数量是 P,负样本(来自不同人的人脸图像)的数量是 N;算法正确判定的正样本数量是 TP,算法错误判定的正样本数量是 FN,满足 TP + FN = P;算法正确判定的负样本数量是 TN,算法错误判定的负样本数量是 FP,满足 TN + FP = N,则:召回率或查全率(Recall) = TP / P * 100%。
误识率或错误接受率
误识率或错误接受率 = FP / N * 100%。
准确率或查准率
准确率或查准率(Precision) = TP / ( TP + FP ) * 100%。
TopN 命中率
在人脸搜索中,TopN 命中率是指身份正确的人脸排在前 N 位的概率。若进行搜索的次数为 M 次,其中身份正确的人脸排在前 N 位的次数为 TN,则 TopN 命中率 = TN / M * 100%。