AAAICVPR论文详解｜万字长文了解可解释AI东西及技能的最新进展

发布时间：2025-05-20　点此：874次

机器之心剖析师网络

迷人的AAAI/CVPR论文详解｜万字长文了解可解释AI工具及技术的最新进展的照片

作者：仵冀颖

修正：H4O

本文聚集于研讨和开发可解说性东西的内容，对AAAI-2022《Tutorial on Explanations in Interactive Machine Learning》提及的三类可解说性东西/办法（部分可解说性、规矩可解说性、概念可解说性）进行了解读，要点了解可解说性东西和办法的最新研讨开展。

1 布景

近年来，学术界、工业界以及政府部门对 AI 道德的注重程度日益加强，从 AI 道德监管方针到 AI 道德技能手法，进步 AI 道德合规性和打造 AI 道德技能东西、产品服务成为不断进步 AI 市场竞争优势的一个中心点。从工业界的详细实践视点看，国外的干流科技公司，包括 IBM、微软、Google 等，以及国内的腾讯、微博、美团等，都继续加大对 AI 道德的研讨和实践，腾讯研讨院还发布了业界首份《可解说 AI 开展陈说 2022—翻开算法黑箱的理念与实践》。

可解说 AI 是一个十分杂乱的范畴，除了触及 AI 算法 / 模型等技能，还触及道德、法律法规等问题。一同，寻求可解说 AI 还需求平衡 AI 的功率和功能的问题。因而，可解说 AI 是一个有待进一步探究的长时刻问题，也是迫切需求处理的要害问题。从可解说 AI 研讨的切入点视点来说，现在首要能够分为两类，一类是注重怎么促进模型通明性，例如，经过操控或解说 AI 模型 / 算法的练习数据、输入输出、模型架构、影响要素等，进步模型的通明性，使监管部门、模型运用者以及用户能够愈加简略了解 AI 模型；另一类则是研讨和开发可解说性东西，即运用东西对已有的 AI 模型进行解说，例如微软的用于练习可解说模型、解说黑盒体系的开源软件包 InterpretML、TensorFlow 2.0 可解说性剖析东西 tf-explain、IBM 的 AI Explainability 360 toolkit 等。

本文聚集于研讨和开发可解说性东西的内容，对 AAAI-2022《Tutorial on Explanations in Interactive Machine Learning》提及的三类可解说性东西 / 办法（部分可解说性、规矩可解说性、概念可解说性）进行了解读，要点了解可解说性东西和办法的最新研讨开展。

在刚刚曩昔的 AAAI-2022 中，有一个专门的 tutorial 介绍交互式机器学习的可解说性。整个 tutorial 由四名专家别离介绍了动机和应战、经过部分化说进行交互、经过根据规矩的解说进行交互和经过根据概念的解说进行交互四部分内容[2]，聚集于可解说性东西，即从技能视点上进步 AI 模型本身的可解说性，使其关于用户来说愈加“通明”。

2 经过部分化说进行交互

经过部分化说进行交互的办法是最常见的可解说 AI 办法，即给定一个猜测器和一个方针决议计划，输入特色承认哪些输入变量与决议计划 "最相关"，咱们比较了解的 SHAP 解说模型（SHapley Additive exPlanation）、LIME 解说器（Local Interpretable Model-agnostic Explanations）都归于这一类办法。

根据部分化说办法的特色包括：

运用户能够树立单个猜测的心思模型；
较难获取足够多的样原本取得模型决议计划进程的概略；
或许会根据用户观察到的样本而发生成见。

本文从 AAAI-2022 的 tutorial 中挑选一种办法，即 FIND，来进行解读。本文正式宣布在 EMNLP 2020 中，相关代码已发布 https://github.com/plkumjorn/FIND。

FIND: Human-in-the-Loop Debugging Deep Text Classifiers

因为取得一个完美的练习数据集（即一个适当大的、无成见的、能很好地代表未见事例的数据集）几乎是不或许的，许多实践国际的文本分类器是在现有的、不完美的数据集上练习的。因而，这些分类器有或许具有不抱负的特性。例如，它们或许对某些子集体有成见，或许因为过度拟合而在实践环境中不能有用作业。本文提出了一个结构，使人类能够经过禁用不相关的躲藏特征来调试深度学习文本分类器[3]。作者将这个结构命名为 FIND（Feature Investigation aNd Disabling，特征调查和禁用）。FIND 运用一种解说办法，即层级相关性传达（layer-wise relevance propagation，LRP）[1]，来了解分类器猜测每个练习样本时的行为。然后，它运用词云汇总一切信息，以创立一个模型的大局视觉图，使得人类能够了解由深度分类器主动学习的特征，然后在测验期间禁用一些或许影响猜测精确性的特征。

LRP 是一种根据深度泰勒分化的解说办法，运用输入特征的重要性分数来解说神经网络猜测。LRP 运用深度泰勒分化技能，经过预先练习的网络，将输出的相关性向后分配，并承认节点对分类的奉献。根据激活度和网络权值，经过鄙人一层传达相关性来取得每层的相关性。解说器给出了与输入图画具有相同维数的像素级热图，然后可视化了输入图画中对所选类别有奉献的重要区域。

现代 NLP 模型一般是端到端的，没有显式编码语义特征，了解和剖析它们的作业都不直观，所以人们很想知道模型究竟都学到了什么。如图 1 所示，NLP 黑盒模型很难明晰的表征单词 (x) 和类别概率 (p) 之间的相相关系：

图 1. 单词 (x) 和类别概率 (p) 之间的相关难以映射 (图片来自 Tutorial slides, https://sites.google.com/view/aaai22-ximl-tutorial)

一般来说，深度文本分类器能够分为两部分。榜首部分进行特征提取，将输入文本转化为代表输入的密布向量（即特征向量）。第二部分进行分类，将特征向量经过密布层后，用 softmax 激活来取得猜测的类的概率。这些深度分类器都是不通明的，因为人类无法解说中心向量或用于特征提取的模型参数的意义。这使得人类无法运用他们的常识来修正或调试分类器。相反，假如咱们了解每个特征中捕获了输入的哪些办法或质量，就能够了解模型的全体推理机制，因为分类部分的密布层就变得可解说了。本文经过引进 LRP，查看每个特征检测到的输入办法是否与分类有关。别的，这些特征能够运用于密布层以支撑正确的类别。图 2 详细展现了 FIND 的架构。

图 2. FIND 调试结构概述

考虑一个包括 | C | 个类别的文本分类使命，其间 C 是一切类别的调集，V 表征语料库（词汇）中仅有的词汇调集。给定练习数据集 D = {(x_1, y_1), ..., (x_N, y_N)}，其间 x_i 是第 i 个文档，包括 L 个词的序列[xi1, xi2,..., xiL]，y_i 为 x_i 的类别标签。运用一个在数据集 D 上练习的深度文本分类器 M 将一个新的输入文件 x 归入其间一个类别 M(x) 。M 能够分为两部分—特征提取部分 M_f 和分类部分 M_c:

其间，f 为 x 的特征向量，W 和 b 为 M_c 的层参数。终究输出为猜测概率向量 p。

为了了解模型 M 是怎么作业的，作者剖析了激活每个特征 f_i 的输入办法或特征。详细来说，运用 LRP，关于练习数据会集的样本 x_j 的每一个 f_i，咱们核算一个相关性向量 r_ij，以表征 x_j 中每个词关于 f_i 值的相关性分数（奉献）。详细的，关于一个一般的神经网络

z_ij 为神经元 i 神经元 i 与神经元 j 之间的权重
把一切神经元到神经元 j 的 z_ij 合起来加上 bias term 偏置项，得到上一层一切神经元到神经元 j 的向量 zj
经激活函数 g 处理得到下一层神经元 xj

了解特定神经元与分类决议计划函数 f(x)的相关性 R_j ^( l + 1 )，期望根据发送到前一层的神经元的音讯来取得这种相关性的分化，将这些音讯记作 R_ (i ← j)。

l + 1 层的某个神经元 j 的相关性 = l + 1 层的神经元 j 给 l 层一切神经元的相关性之和。

x_j 和 f_i 的相关性向量 r_ij 能够依上式核算得到。

在对练习样本的一切 d 个特征履行上述操作后，能够生成词云来协助用户更好地了解模型 M。这样就做到了：不清楚潜在特征是什么意思，但清楚它是怎么映射到每个类别的，即模型的可解说性。

词云: 关于每个特征 f_i，创立（一个或多个）词云，以可视化输入文本中高度激活 f_i 的办法。这能够经过剖析练习数据中一切 x_j 的 r_ij 并在词云中显现取得高相关性分数的词或 n-grams 来完成。作者标明，不同的模型架构或许有不同的办法来生成词云，以有用地提醒特征的行为。

本文挑选 CNN 作为分类器，来自练习样本的每个特征都有一个包括 n-grams 的词云，由 CNN 的 max-pooling 挑选。如图 3，对应于过滤器巨细为 2 的特征，给出了 bi-grams（例如，“love love”, “love my”, “loves his” 等），其字体巨细与 bi-grams 生成的特征值的巨细相对应。这与之前的作业剖析 CNN 特征的办法类似，适当于运用 LRP 对输入的特征值进行反向传达，并裁剪出 LRP 得分不为零的接连输入词，显现在词云中。

图 3. 来自 CNN 的一个特征的词云（或字面意思是 n-gram）

如前所述，咱们想知道学到的特征是否有用，是否与分类使命相关，以及它们是否从下一层取得恰当的权重，能够经过让人类考虑每个特征的词云并告知咱们该特征与哪个类别相关来完成。

简洁的AAAI/CVPR论文详解｜万字长文了解可解释AI工具及技术的最新进展的插图

不过，在实践场景中这样的直接运用仍是存在问题。假如一个词云接纳的答案与它实在的类别（表征为 W）不同，则标明该模型存在问题。例如，假定图 3 中的词云表征情感剖析使命中的特征 f_i，但 W 的第 i 列暗示 f_i 分类为“负面情感类别(negative sentiment class)”，则咱们能够判别这个模型是不正确的。假如这个词云出现在产品分类使命中，这也是有问题的，因为词云中的短语对任何产品类别都不具有辨别性，是无法给出正确的分类成果的。因而，作者进一步修正该办法，为用户供给了禁用与任何有问题的词云相对应的特征的处理办法。将 M_c 修正为 M’_c：

Q 是一个掩码矩阵，⊙是一个元素相乘的运算符。开始，Q 中的一切元素都是能够完成特征和输出之间一切衔接的元素。为了禁用特征 f_i，将 Q 的第 i 列设置为零向量。禁用特征后，冻住 M_f 的参数并微调 M’_c 的参数 (除了掩码矩阵 Q) 在终究一步用原始练习数据集 D 进行微调。

作为示例，作者在 Yelp 数据库中进行了试验。Yelp 库用于猜测餐厅谈论的心情（正面或负面），作者抽出 500 个样本作为 Yelp 的练习数据。运用 MTurk 上的人类反响来给特征分配等级。因为每个分类器有 30 个原始特征（d = 30），作者将它们分为三个等级（A、B 和 C），每个等级有 10 个特征。估量排名 A 的特征对猜测使命最相关、最有用，而排名 C 的特征最不相关，或许会损坏模型的功能。

图 4 显现了来自 Yelp 数据集的三个 CNN 样本之一的均匀特征分数的散布。图 5 给出了每个等级的词云的示例。咱们能够清楚地看到这三个特征的不同质量。一些参加者回答说，图 5 中的等级 B 特征与正面类别相关（或许是因为 "delicious" 这个词），W 中这个特征的权重也是如此（正面：负面 = 0.137：-0.135）。风趣的是，图 5 中的等级 C 特征得到了负分，因为一些参加者以为这个词云与正面类别有关，但实践上模型将这个特征作为负面类别的根据（正面：负面 = 0.209：0.385）。

图 4. 在 Yelp 数据集上练习的 CNN 模型的均匀特征分数的散布

图 5. 排名 A、B、C 的 CNN 特征的词云示例

3 经过根据规矩的解说进行交互

经过根据规矩的解说能够看做是一种根据大局解说的办法。根据大局解说办法的特色包括：

能够供给一个概述图；
能够防止表述性成见；
这种大局简化的概述处理是以忠诚性为价值的。

规矩能够直接从数据中学习（白盒模型），也能够从模型的代替物中学习（黑盒模型）。现有根据规矩的解说办法的差异首要在于“规矩的杂乱性、精确性、非堆叠性” 这三方面。此外，他们在展现规矩的办法上也有差异（决议计划列表、决议计划集）。为了精确反映决议计划鸿沟，规矩有必要包括越来越窄的数据片 / 集，而这反过来会对可解说性发生负面影响。咱们也从 tutorial 给出的办法中挑选一篇进行深化解读。

Machine Guides, Human Supervises: Interactive Learning with Global Explanations

本文是 AAAI 2021 中的一篇文章，提出了解说性引导学习（explanatory guided learning，XGL），这是一种新式的交互式学习战略，在这种战略中，机器引导人类监督者为分类器挑选信息丰厚的样本。这种引导是经过大局解说来供给的，大局解说总结了分类器在样本空间的不同区域的行为，并露出出其缺陷。与其他由机器主张并依靠部分化说的解说式交互学习战略比较，XGL 的规划是为了应对机器供给的解说超越分类器质量的状况。此外，XGL 运用大局解说来翻开人类主张的互动的黑匣子，使监督员能够挑选应战所学模型的信息样本。XGL 最大的优势在于：规矩可所以简略的，一同用来辅导人类的反应[4]。

令 H 表征一类黑盒分类器 h，即神经网络或内核机。咱们的方针是从数据中学习一个分类器 h。开始咱们或许只能取得一个小的练习集 S_0，随后能够经过 supervisor 获取更多的样本。为了便于了解和操控，还要求机器以专家 supervisor 能够了解的办法解说自己的信仰（belief），这将有助于辨认猜测器逻辑中的过错。解说式主动学习（explanatory active learning，XAL）便是这一类代表办法。在 XAL 中，机器从一个未符号的样本池中挑选 queries x，并要求 supervisor 对其进行符号，此外，XAL 还给出对 queries 的猜测成果以及对猜测成果的部分化说。这些解说提醒了生成这些猜测成果的原因，例如特征相关性，并与猜测成果一同构建一个 narrative。此外，supervisor 还能够经过对解说供给反应来操控 predictor，例如，能够指出 predictor 过错地依靠了哪些特征。

不过，因为部分化说侧重于 queries，XAL 输出的 "narrative" 疏忽了不知道数（unknown unknowns，UU），根据界说，机器在这种状况下体现得很差。UU 或许会诱使机器向用户过度推销自己的功能，特别是当它们与高本钱相相关时。这就导致了叙述性成见（narrative bias，NB）。直观地说，NB 衡量的是 queries x1,...,X_T 传达给用户的功能与真实的危险 R_T。用户感遭到的功能是 XAL 的 narrative 跟着时刻推移所露出的丢失的函数。图 6（左）详细展现了这个问题，组成数据的规划是为了诱发不知道的 UU。将赤色的样本分组为间隔均匀的集群，而蓝色的样本则均匀地散布在其他当地。主动 RBF SVM 经过 140 次不承认性采样迭代后挑选的 queries 被圈在黄色的当地，布景是决议计划面。queries 显着会集在已知的赤色集群周围，在这些区域中分类器的猜测和解说（如特征相关性或梯度信息）功能都较好。queries 彻底疏忽了模型在不知道的赤色集群上的糟糕体现，因而也被 XAL 的输出 narrative 所疏忽。

AL（active learning）在存在不知道数（unknown unknowns，UU）的状况下，也便是分类器会犯高置信度过错的区域，作业作用很差。这在类别偏移和概念漂移的状况下是很常见的，而当与高过错符号本钱相关时，特别具有应战性。图 6（左）说明晰这个问题，组成数据的规划是为了诱发不知道的不知道数 UU。将赤色的样本分组为间隔均匀的集群，而蓝色的样本则均匀地散布在其他当地。主动 RBF SVM 经过 140 次不承认性采样迭代后挑选的查询被圈在黄色的当地，布景是决议计划面。查询显着会集在已知的赤色集群周围，该区域中分类器在猜测和解说（如特征相关性或梯度信息）方面都现已体现杰出。模型在不知道的赤色集群上的糟糕体现彻底被查询所疏忽，因而也被 XAL 的表述输出所疏忽。

图 6. 左图：根据不承认性的 AL 查询已知赤色聚类周围的点（黄色圈出）而疏忽了不知道的聚类；中图：XGL 发现了大多数的赤色集群；右图：HINTER 从肝炎数据会集提取的规矩样本（类别为活体、死体）：医师只需花费很少的精力就能了解和（验证）这样的规矩

本文提出运用由人类主张的互动学习作为处理叙述性成见（NB）的办法。该办法的起点是：假如 supervisor 能看到并了解 h 的决议计划面，她就能辨认已知和不知道的过错—然后承认 predictor 是否行为不妥—并明智地挑选能够纠正这些过错的比如。当然，在实践运用的场景中 h 是十分杂乱的，所以本文所评论的问题是抱负状况下的，真实的应战是怎么使其可行。

本文提出了一种运用人类主张的互动学习作为应对表述性成见的办法，即 XGL。假如一个有动力的、有常识的监督者能看到并了解 h 的决议计划面，她就能辨认已知和不知道的过错，然后承认猜测者是否有过错行为，并智能地挑选纠正这些过错的样本。当然，因为 h 的决议计划面或许十分杂乱，这种战略纯属在抱负状况下的办法。因而，运用这种战略的要害性应战在于怎么使其有用。

作者提出经过运用大局解说以一种紧凑和可解说的办法归纳 h 来处理这个问题。大局解说是一个可解说的 h 的代替品 g，一般是一个浅层决议计划树或一个规矩集。这些模型能够分化成简略的原子元素，如简略的决议计划途径或简略的规矩，然后能够独立描绘和可视化，并与单个样本相相关。图 6（右）展现了一个样本模块。一般 g 是经过模型蒸馏得到的，即，经过运用一个大局解说器π将 h 投影到 G 上：

其间，P 是 ground-truth 散布，M 为丢失函数，Ω用于衡量解说的杂乱度，λ>0 操控忠诚于 h 和简略性之间的权衡。期望值一般由一个经历性的蒙特卡洛估量所代替，该估量运用来自 P 的新的 i.i.d. 样本或运用任何可用的无标签样本。

XGL 的伪代码如 Algorithm 1 所示。在每次迭代中，在当时练习集 S 上拟合一个分类器 h，并运用大局解说 g=π(h)进行归纳。然后，将 g 提交给 supervisor。每条规矩都被翻译成 visual artifact 或文字描绘，并与它所包括的样本一同展现。依照规矩对样本进行标示。然后要求 supervisor 供给一个或多个解说有误的样本，将这些样本增加到练习集 S 中。循环往复，直到 h 足够好或查询 budget 用完。

在实践中，supervisor 能够经过以下办法查找过错：

扫描样本，每个样本都与猜测和规矩一同显现，并指出一个或多个过错；
查找过错的规矩，然后为其供给反例。

榜首种战略仿照的是引导式学习（guided learning，GL）：在 GL 中，给定一个关于某些方针概念的文本描绘和一个经过查找引擎取得的样本列表，用户有必要在列表中辨认该概念的样本。不同的是，在 XGL 中，样本与相应的猜测成果和解说一同出现，这使得用户有或许辨认实践的过错并了解模型。从这个视点讲，XGL 之于 GL，就像 XAL 之于 AL 相同：一种让无交互的东西变得不通明的办法。样本能够按规矩分组，以便于对它们进行扫描。鉴于 GL 现已成功地布置在工业运用中，作者以为 XGL 也能够做到。第二种战略是针对有才能辨认不良规矩并辨认或组成反例的专家。因为规矩一般比样本少得多（在本文试验中，一般是 5-30 条规矩 vs 数百或数千条样本），这种战略或许功率更高。经过对规矩进行恰当的规范化，能够促进规矩的可解说性。

XGL 的规划是为了抵挡叙述性成见（NB），一同使专家 supervisor 能够辨认过错。作者着重，简略地将大局解说与机器发动的交互式学习结合起来，并不能到达相同的作用，因为 queries 的挑选依然会遭到 UU 的影响。XGL 的另一个长处是，它原生支撑在每次迭代中挑选成批的实例，然后下降了 queries 本钱。作者在本文中将评论和试验束缚在 one example-per-query 的状况下，以简化与竞争对手的比较。

将挑选比如的职责搬运给人类 supervisor 也存在危险。大局性的解说或许是一个太大略的总结，或许或许被 supervisor 误解。这一问题相同影响了 AL 和 XAL。所以，作者标明，应将 XGL 运用于不太或许出现这些问题或其影响能够疏忽的环境中。

XGL 的首要缺陷无疑是大局解说的认知和核算本钱。核算本钱能够经过跟着 h 的更新而递加地更新 g 来削减。认知本钱能够经过以下几种办法改善：能够将大局解说束缚在实例空间的那些区域中；根据需求调整大局解说的分辨率，例如能够先向 supervisor 供给大略的规矩 g，然后答应他完善 g，并 "扩大" 那些看起来可疑的区域或子空间。不管怎么说，大局解说必定比部分化说或不解说要求更高。像其他互动协议相同，XGL 触及一个 human-in-the-loop 的进程，supervisor 有必要参加进来并在其间投入时刻和注意力。作者的观点是：在高估过错模型的价值很大的运用中，这种额定的尽力是合理的。

作者将本文根据规矩的 XGL 的完成办法命名为 HINTER（Human-INiTiated Explanatory leaRning），并在几个 UCI 数据集上运用规范的二元分类器（SVM 和梯度进步树）与几个由人类和机器主张的代替计划进行了比较。作者在图 6 所示的组成数据集以及来自 UCI 存储库的几个分类数据会集进行了试验，试验成果见图 7。在大多数数据会集，HINTER 的猜测成果与竞争对手的猜测成果相同或更好。在特别难的组成数据上，功能差异适当显着，XGL 比竞争对手高出近 20% 的 F1 分数。作者剖析这也是因为 UU 的原因。AL 和随机抽样仅仅很少查询赤色类别的样本，这便是他们在图 7（左）中显现的开展缓慢的原因，而 GL 对少量类别过度抽样。在一切原始数据集和一切 "+uu" 变体中，XGL 的体现与一切竞争对手类似或更胜一筹。体现最差的是 german 数据集，不管挑选何种根底分类器，XGL 在 F1 方面的体现都很差，但在表述性成见（NB）方面依然体现最好。综上所述，成果标明，在存在 UU 的状况下，XGL 倾向于学习更好的分类器，而假如 UU 的问题不大，XGL 的体现也是合理的。

图 7：在三个有代表性的数据集上，当查询次数增加时，一切竞争者的 F1 得分（上）和表述成见（下，越低越好）：组成使命（左），banknote（中）和 german（右）

4 经过根据概念解说进行交互

本节要点评论根据概念解说的交互办法，包括根据概念的模型（Concept-based models，CBMs）和神经符号模型（Neuro-symbolic models），这些模型注重模型解说的更高语义水平的优势。前述的部分或根据规矩的办法难以拜访模型内部、概念层面的原因，特别是关于黑箱模型而言。而根据概念解说的办规律企图从概念和语义的视点剖析 AI 模型的作业机理。文献 [5] 为 tutorial 中提及的一篇文章，咱们对其加以解读。

Interactive Disentanglement: Learning Concepts by Interacting with their Prototype Representations

本文最新宣布在 CVPR 2022 中，首要研讨意图是经过弱监督和人机互动在原型离散的潜在空间上学习视觉概念。本文提出了交互式概念交流网络（interactive Concept Swapping Networks，iCSNs），这是一个经过弱监督和隐性原型表征来学习以概念为根底的表征的新结构[5]。这种以语义为根底的、离散的潜在空间有利于人类了解和人机互动。

现代的AAAI/CVPR论文详解｜万字长文了解可解释AI工具及技术的最新进展的图片

因为概念学习的杂乱性，一同遭到心思学和认知科学范畴中关于概念原型的研讨成果的启示，作者研讨了原型表征在学习人类可了解和可修订的概念表征方面临神经概念学习者的优势。为此，本文提出了 iCSN，它经过弱监督办法来学习隐含地将语义概念与原型表征结合起来。这种结合是经过离散的间隔估量和配对数据样本之间的同享概念表征的交流来完成的。iCSN 答应查询和修订其学习的概念（如图 8），并整合关于未见过的概念的常识（如图 9）。

图 8. 一个经过练习的模型（左）问询人类用户（右），假如它从数据中提取的概念与用户的常识相吻合。随后，该模型能够承受来自用户的修正意见

图 9. 用于学习新概念的人机互动。用户查询一个方针，并在必要时引导机器的原型主张

iCSN 的完好结构见图 10。

图 10. 交互式概念交流网络。iCSN 根据一个承认性的主动编码器结构，供给一个开始的 entangled latent encoding（1）read-out 编码器；（2）从潜在空间中提取相关信息，并将其提取的概念编码与一组原型插槽进行比较；(3)经过一个加权的、根据 softmax 的点积；(4)生成一个离散代码，标明每个概念编码的最类似的原型插槽。iCSNs 是经过简略的重建丢失、经过匹配配对的弱监督和交互办法来练习的；(5)同享概念的潜在概念表征，强制将语义信息与特定的原型表征结合起来

根据原型的概念架构。给定输入 x_i，为了简略起见，下述表述中会从符号中删去样本索引 i，并用 x 标明整个图画。在本文结构中，x 也可所以图画子区域的潜在表征。经过预处理进程，例如经过切割算法或组成生成场景模型，能够隐式或显式地从图画中提取该子区域。此外，假定每个 x 包括几个特色，例如色彩、形状和巨细。将这些特色的完成称为基本概念，例如 “蓝色” 或“三角形”。将 “色彩” 称为一个范畴概念，或许在认知和心思科学范畴中经常被称为上位概念（superordinate concept）。由此，每个图画 x 都有 ground-truth 基本概念 c，J 标明上位概念的总数。作者做了一个必要的假定，即每个上位概念 x 只能包括一个基本概念完成。为了简略起见，进一步假定每个上位概念包括相同数量的基本概念 K，这些概念在实践中或许会有所不同。

假定编码器 - 解码器结构，界说一个输入编码器 h(·)，它接纳图画 x 并将其编码为潜在表征 h(x)=z。iCSN 没有像许多根据主动编码器的办法那样直接从 z 重建，而是首要将几个 read-out 编码器 Mj(·)运用于潜在表征 z，然后生成 Mj(z)=φ_j。将编码φ_j 称为概念编码。每个 read-out 编码器的方针是从羁绊的潜在空间 z 中提取与上位概念（例如色彩）相对应的相关信息。咱们将鄙人面评论怎么强制提取特定于概念的信息。iCSN 的一个中心组件是一组代码本，每个代码本包括多个原型插槽（prototype slots）。将这个调集界说为Θ:=[p_1,…,p_j]。其间，p_j 标明代码本，每个代码本包括一组有序的可练习、随机初始化的原型插槽。

为了将每个概念编码φ_j 分配给 p_j 的一个原型插槽，将类似度分数 S_dot(·,·)界说为其两个输入的点积上的 softmax。经过这种办法，得到概念编码φ_j 和特定原型插槽(p_j)^k 之间的类似度：

得到的类似度向量 s_j 包括类别 j 的每个原型插槽的类似度得分，对应的概念编码为φ_j。为了进一步离散化和将概念绑定到各个原型插槽，引进第二个函数 Sτ(·)，将加权 softmax 函数运用于类似度分数：

本文试验中，逐步下降τ以逐步加强信息的绑定。在τ的极点状况下，∏j 类似于一个独热向量（在 j>1 的状况下，多标签独热向量），以表征概念编码φ_j 最类似于第 j 个类别的哪个原型插槽。终究，将每个类别的加权类似性分数衔接到一个向量中，以接纳终究的原型间隔码 y，并将其传递给解码器 g(·)，以重建图画。

概念交流和弱监督。在练习之前，即初始化之后，还没有语义常识绑定到原型插槽。可是，在收敛的 iCSN 中发现的语义常识是经过弱监督的练习进程和简略的交互技巧直接学习的。本文选用匹配配对办法，这是一种有用的弱监督练习进程，以战胜无监督解羁绊的问题。在这种办法中，观察到一对图画 (x,x’)，它们同享数据中潜在改变要素的已知子集的值，例如色彩，而同享要素的总数能够在 1 到 J 1 之间改变。经过这种办法，模型能够运用配对的附加信息来束缚和辅导其潜在表征的学习。曾经关于弱监督练习（特别是 VAEs）的作业康复办法首要是在同享因子 ID 处运用 x 和 x’的编码器散布的乘积或均匀值，而 iCSN 则是在成对表征之间运用一个简略的交流技巧。详细来说，当 v 是图画对(x,x’) 之间的同享因子 ID 时，相应的类似度分数 (∏_v, ∏’_v) 在终究对应的原型代码之间交流：

这种交流进程具有直观的语义，它迫使 iCSN 从榜首幅图画中提取信息，用于表征第二幅图画的类别 v 的特色。

练习方针。iCSN 终究经过在巨细为 N 的批次中每对图画的单像素重建丢失进行练习：

该丢失项与之前关于原型学习的几项作业构成比照，之前的这些作业会经过额定的一起性丢失来加强语义绑定。iCSN 则经过将语义绑定隐式地包括到网络体系结构中，削减了引进额定超参数以及对多个方针进行更杂乱的优化进程的需求。

与 iCSNs 交互。iCSNs 的方针，特别是与 VAEs 比较，纷歧定是学习底层数据散布的生成潜在变量模型，也可所以学习人类能够了解和交互的原型概念表征。因而，自编码器结构是到达意图的一种手法，而不是必要条件。可是，iCSN 不是在收敛后丢掉解码器，而是能够出现输入样本对每个概念最接近的原型重建。因而，经过在测验时查询这些原型重建，人类用户能够承认猜测的概念是否有意义，并或许检测到不想要的模型行为。经过界说测验时重构差错的阈值，iCSN 能够给出其在辨认新样本中概念的承认性的启示式指示。

因为存在离散且语义受限的潜在代码 y，人类用户能够经过将 y 视为多标签独热编码与 iCSNs 交互。例如，逻辑陈说img. hasconcept(img, p 11 ) or img. isin(img, imgset) hasconcept(img, p 12 )，用户能够拟定逻辑束缚，别离读作“从未检测到原型 p 11 所代表的概念”“关于这组图画中的每一幅图画，你都应该检测到原型 p 12 所代表的概念。”。用户能够以交互办法办理一组体现不正确的图画。

终究，iCSNs 的模块化特色还具有交互式在线学习才能。例如，当模型供给包括新概念的数据样本时，或当数据中存在的一个要素开始被以为不重要，但在初始学习阶段被以为很重要时，在这两种状况下，交互的办法取决于要学习的概念的层次结构，即它是基本概念仍是上位概念。假定人类用户对 iCSN 之前的概念标明满意，而且 J（每个代码本的原型槽总数）被设置为高估，用户能够简略地经过相关类别的一个未运用的原型插槽给出反应以标明新的基本概念。假如需求学习一个新的上位概念，能够在初始练习阶段经过增加额定的 read-out 编码器来完成。与其他 read-out 编码器比较，该编码器不映射到原型插槽的空间。终究，能够练习 iCSN 的初始潜在空间 z 来表征完好的数据散布。为了包括开始被以为不相关的概念，能够只扩展 J，这意味着增加一个新的 read-out 编码器 m_J+1(z)=φ_J+1 和代码本 P_J+1 到 iCSN。然后，m_J+1 学习将新的基本概念从 “新的” 上位概念绑定到 p_J+1，p_J+1 只需求新的数据对来举例说明曾经不重要的概念。

本文提出了一个新的基准数据集：基本概念推理（Elementary Concept Reasoning，ECR），如图 11。ECR 由稳定色彩布景上二维几许方针的 RGB 图画（64×64×3）组成。方针的形状（圆形、三角形、正方形和五边形）、巨细（巨细）和色彩（赤色、绿色、蓝色、黄色）能够不同。为每种色彩增加均匀的颤动，然后发生不同的色彩。每个图画都包括一个固定在图画中心的方针。对图画进行配对处理，使单个图画中的方针至少同享 1 个、最多同享 J 1 个共有特色。ECR 包括 5000 个图画对和 2000 个用于验证的图画的练习集。

图 11. 基本概念推理数据集样本。每张样本图画（左）描绘了一个居中的二维物体，具有三种不同的特色：色彩、形状和巨细。对图画进行配对，使得这些物体同享一个和两个概念（右）

在本文试验中，作者将 iCSN 与几个基线办法进行比较，包括无监督练习的β-VAE 和运用编码器散布的算术均匀值的 Ada-VAE。为了与经过同享匹配配对练习的 iCSN 和 Ada-VAE 进行公正的比较，开始将 Ada-VAE 作为一种较弱的监督办法引进，作者也用已知的同享因子 ID 练习 Ada-VAE。这个基线本质上类似于β-VAE，在已知的同享因子 ID 处对图画进行编码器散布的均匀化。这一办法在本文试验成果中标明为 VAE。终究，作者将 iCSN 与一个离散化的 VAE 办法进行比较，该办法经过 Gumbel-softmax 技巧运用分类散布（Cat-VAE）。Cat-VAE 的练习办法与 VAE 相同，即经过比例配对和编码器散布的均匀化。

作者经过线性勘探研讨每个模型的潜在编码。表 6（上）中的成果记录了不同模型在五次随机初始化进程中所进行验证集的均匀精度和规范误差。咱们观察到，CSN 的潜在编码具有近乎完美的猜测功能，而且超越了一切变分办法。重要的是，CSN 的体现乃至超越了 VAE 办法（VAE 和 Cat VAE），后者与 CSN 在相同类型的弱监督下承受练习。β-VAE 的均匀功能比弱监督模型差。可是，Ada-VAE 的体现比β-VAE 差。此外，Cat VAE 的离散潜在表征也比 CSN 体现差。Cat VAE 运转状况标明功能存在较大误差，一同标明多个 Cat VAE 运转收敛到次优状况。总归，虽然 ECR 数据集仅包括单个 2D 几许方针的改变，但基线模型的功能不如 CSN，即便运用相同数量的信息进行练习。

表 6. 经过决议计划树（DT）和逻辑回归（LR）进行线性勘探。(上)对 iCSN 模型和各种基线的 latent codes 进行勘探。(下)经过对 Cat-VAE 的 latent codes 进行勘探，并进行编码器散布交流和 iCSN 概念编码均匀化的融化研讨。一切的分类精确率都是在测验集上核算出来的

iCSN 的语义束缚离散潜在空间的一个长处是，人类用户能够直接辨认次优概念表征，见上文所示的图 8。在辨认正确或过错学习的概念后，用户能够在这个离散的概念空间上运用简略的逻辑反应规矩。详细来说，在经过弱监督进行练习后，主张机器和人类用户评论所学的概念，并承认这些概念是否与用户的常识一起，或许是否需求修正。例如，iCSN 能够学习在几个原型插槽上标明色彩，或许经过一个插槽标明两个形状，这标明它过错地以为这些形状归于同一个概念。然后，iCSN 能够经过两种办法传达其学到的概念。首要，它能够根据推断出的离散原型间隔代码对同享一个概念的新图画进行分组，并问询人类用户分组后的图画是否的确同享一个一起的基本概念，如图 8 所示。其次，运用解码器，它能够出现每个学习概念的原型重建，例如，出现具有蓝色原型暗影的方针，拜见上文所示的图 9。在承认了潜在的次优概念表征之后，人类用户能够经过逻辑规矩在 iCSNs 的离散化潜在空间上进行交互，并进一步改善表征。

关于之前一切的 vanilla CSN 装备，人工查看了 32 个或许的概念组合中的一个示例的概念编码 y，并承认了在每个独自概念的大多数示例中 “激活” 的原型插槽（主插槽），此外，根据概念辨认那些在示比如集（辅佐插槽）中从未激活或很少激活的原型插槽。接下来，在 y 上运用 L2 丢失，运用原始重建丢失和该额定 L2 丢失微调原始练习集上的从前运转成果。这种反应的语义是，应该只由首要原型槽来标明概念。此外，在两次运转中，修正了一个观察到的次优解，即五边形和圆绑定到同一原型插槽。因而，在练习集的一切五边形样本上供给反应，以绑定到另一个空的原型插槽，并再次经过额定的 L2 丢失束缚优化。

5 小结

咱们在这篇文章中从可解说性东西的研制视点评论了可解说 AI 问题，评论的根据是 AAAI-2022 tutorial 中提及的最新研讨成果。现在，国内外关于可解说 AI 真实落地的运用还比较少，首要会集在几个超大型公司，而学术界对这一问题的注重也远不如其它 AI 范畴多。可是跟着数字经济的重要性越来越高，渠道企业的合规性开展成为了下一步 AI 算法 / 模型运用的要害。此外，从监管端来说，促进可解说 AI 的开展也是有用监管数字经济的重要抓手。终究，可解说 AI 也是咱们广阔用户运用 AI 模型的定心石。跟着越来越多国内大型企业对可解说 AI 的注重度不断进步，信任可解说 AI 会很快在很多的运用场景中运用，可解说性东西的研制也会遭到更多研讨人员的注重。

本文参阅引证的文献

[1] Bach S , Binder A , Montavon G , et al. On Pixel-Wise Explanations for Non-Linear Classifier Decisions by Layer-Wise Relevance Propagation， PLOS ONE, 2015, 10

[2] Tutorial on Explanations in Interactive Machine Learning，AAAI 2022，https://sites.google.com/view/aaai22-ximl-tutorial

[3] Lertvittayakumjorn et al., 2020, FIND: Human-in-the-Loop Debugging Deep Text Classifiers, EMNLP 2020

[4] Teodora Popordanoska, Mohit Kumar, Stefano Teso, Human-in-the-Loop Debugging Deep Text Classifiers,AAAI 2021

[5] Stammer, W. , et al. "Interactive Disentanglement: Learning Concepts by Interacting with their Prototype Representations." CVPR 2022

仵冀颖，工学博士，结业于北京交通大学，曾别离于香港中文大学和香港科技大学担任助理研讨员和研讨助理，现从事电子政务范畴信息化新技能研讨作业。首要研讨方向为办法辨认、核算机视觉，喜好科研，期望能坚持学习、不断进步。

关于机器之心全球剖析师网络

Synced Global Analyst Network

机器之心全球剖析师网络是由机器之心主张的全球性人工智能专业常识同享网络。在曩昔的四年里，已有数百名来自全球各地的 AI 范畴专业学生学者、工程专家、事务专家，运用自己的学业作业之余的空闲时刻，经过线上同享、专栏解读、常识库构建、陈说发布、评测及项目咨询等办法与全球 AI 社区同享自己的研讨思路、工程经历及工作洞悉等专业常识，并从中取得了本身的才能生长、经历积累及工作开展。

告发/反应