HHGN 精读

这是在北邮 GAMMA LAB 实习期间精读的一篇 paper，原文链接为 HHGN: A Hierarchical Reasoning-based Heterogeneous Graph Neural
Network for fact verification

一、前置知识

Token：通常指的是文本中的一个单元，例如一个单词、字符或子词。例如，句子 “I love apples.” 可以被分解成词语 tokens：[“I”, “love”, “apples”, “.”]。
“text span” 是指文本中的一个连续片段，通常由一系列相邻的词语或字符组
成。在自然语言处理中，文本片段可以是一个单词、一个短语、一个句子，
甚至是一个更长的片段，取决于具体的上下文和任务。

二、概念引入

在互联网信息爆炸的今天，我们需要一种工具，能够自动地检验互联网上的
信息真实与否。这种技术叫做“事实验证”(Fact Verification)

事实验证中，输入信息称为“主张”（Claim），这是一个待验证的论断或主张，
通常是一个陈述性句子，需要经过验证以确定其真实性或准确性。算法要求
根据主张的信息，通过 Wikipedia 等权威平台进行检索从而获取 “证据”
（Evidence）。

证据是一个或多个句子，提供了支持或反驳这个主张的信息，通常是与主张相关的背景信息、数据、事实等。事实验证需要根据检索到的“证据句”（Evidence Sentence），从三个 Label 中选择其一对主张进行评价。它们分别是：

SUPPORT
REFUTE
NOT ENOUGH INFO

例如下面的主张 Home for the Holidays stars an American actress

我们希望能设计一个系统，提取出 Home for the Holidays 和 American actress 两个关键词，并且在语料库中查找这两个 Evidence 所对应的事实，从而验证原本的主张是否正确。在此例中，语料库指出 Home for the Holidays 这部电影的主角是 Holly Hunter，而 Holly Hunter 在语料库中也提到她是一个美国演员，因此原主张成立。

以往的事实验证通常基于 Natural Language Inference（NLI）来实现。

NLI 是自然语言处理领域中的一个任务，其目标是判断给定两个句子之间的
逻辑关系，通常包括三种情况：蕴涵（entailment）、中性（neutral）和矛盾
（contradiction）。这个任务的核心在于理解一句话是否可以从另一句话中推
断出来。

在事实验证中，通过将主张和相关证据组成句子对，然后使用 NLI 技术来判
断主张和证据之间的逻辑关系，可以帮助确定主张是否在给定的证据下是真
实的或可信的。这个过程可以通过 NLI 模型来执行，模型会根据主张和证据
之间的语义和逻辑关系，判断主张是否与证据一致（蕴涵关系）或矛盾（矛
盾关系）。

但这种方法忽视了不同的证据句之间的语义联系。对于需要多个不同的证据
句才能验证的主张，这种方法就难以处理。

为了解决这一问题，自然而然想到用节点来表示一个个证据句，然后将证据
句连接成图，从而实现各个证据句之间的信息流通。但这样的方法仍然存在
如下的不足：

只能提取“语句尺度”（Sentence-level）的特征，而忽视了“实体尺度”
（Entity-level）和“上下文尺度” （Context-level）
缺乏对于事实验证的可解释性（interpretability）
现有模型通常单独关注于特定情景下的事实验证，即单一证据或多个证据，
这在两种情景下都不能很好地发挥作用。

为了提供多种不同尺度下的语义信息，并且提供可解释性，作者提出了基于
分层推理的异构图神经网络，Hierarchical Reasoning-based Heterogeneous
Graph Neural Network（HHGN）。原来的图中只有证据句一种节点，现在引
入了实体节点和上下文节点，构成了异质图来表示三种不同节点之间的语义
关系。

作者表示，这样基于分层推理来从不同尺度对主张进行论断，可以有效提升
模型的精确性。

三、网络结构

本文中提到的工作流程可分为五个部分

证据检索（Evidence retrieve）
图构建（Graph construction）
节点特征初始化（Node feature initialization）
基于推理的节点更新（Reasoning Based Node Updating）
预测层（Prediction Layer）

用图像表示为

1. 证据检索

对于证据检索这部分的要求，我们会输入主张 $C_l$ 以及大量的来自 Wikipedia 的权威文章，从而生成与主张相关的证据序列。具体实现步骤如下：

对于每个主张，首先采用 Constituency Parser Toolkit 提取出与主张可能相关的实体（Entity）。这里的实体并非只是名词，还包括主要动词和主张本身。
然后调用 MediaWiki API 在 Wikipedia 中搜索相关程度最高的 𝑘 篇文章，表示为
$A=\{A_1,A_2,\cdots, A_n\}$ 。在得到文章之后，我们需要从文章中提取关键的句子作为证据句。给定一个主张和对应的一篇文章，采用一种基于 BERT 的检索模型，以损失函数的方式来对文章中的句子进行打分，具体规则为

$$L_{Re}=\sum \max(0, 1+Score_n-Scorn_p)$$

评分之后，我们就得到了证据序列 $S=\{s_1,s_2,\cdots, s_m\}$

2. 图构建

图构建部分接收来自上一环节的证据序列 $S$ 作为输入，并构建一个由证据组
成的图。为了能够从不同尺度验证主张，图是由三个不同尺度的证据的节点
所组成的异质图，从微观到宏观分别是“实体尺度” （Entity-level）， “语句
尺度”（Sentence-level）和“上下文尺度” （Context-level）。如下图

首先对于证据序列 $S$，我们将其中所有句子拼接起来，称为序列文本
（Sequential text），记为 $C_t$，将其作为上下文节点。而证据序列 $S$ 中的每
句话就是语句节点。再使用 NER（一种自然语言处理工具）将所有证据据中
的名词短语提取出来，作为实体节点，记为 $e_i$ 。注意，同一个名词可能对应
多个同名节点。

在边构建方面，我们在每个微观节点到宏观节点之间都连接一条有向边来实
现信息从底层到上层的传输，其次，同一尺度的节点之间以无向边相连，实
现同尺度的信息沟通。

为了彻底提取实体间的关系，并且抑制无关节点带来的噪声，可以将实体尺
度节点之间的无向边分为三类：“Sentence-level Edge”（语句尺度边）,
Context-level Edge （上下文尺度边）和 Article-level Edge （文章尺度边）

“Sentence-level Edge”（语句尺度边）指的是在同一句话中，不同实体间的关
系。
Context-level Edge （上下文尺度边）指的是不同文章中，同一实体间的关系。
Article-level Edge （文章尺度边）指的是在某一篇文章的标题中出现了的实
体所代表的节点，称为中心节点（Central node），与文章剩余部分出现的节
点之间的关系。

以上，我们得到了一个由不同尺度的证据节点所组成的异质图。这也就对应
了这篇 paper 的标题：HHGN: A Hierarchical Reasoning-based
Heterogeneous Graph Neural Network for fact verification

3. 节点特征初始化

节点特征初始化这一部分，我们接收主张 $C_l$ 以及证据序列 $S$，需要对上文我
们构建出的异质图中的节点进行初始化。我们首先将主张 $C_l$ 与序列文本 $C_t$
拼接在一起并进行 BERT 编码得到此主张和证据的标记（Token），这是一个
长度为 $d_1$ 的一维张量，记为 $c^{(0)}$

$$c^{(0)}=BERT([C_l,C_t])$$

其中 $d_1$ 指的是 BERT 中间表示向量的大小。然后我们应用一个双注意力层
（Bi-Attention layer) 来增强主张和证据的交互性，得到了一系列的 Token，
对于主张，Token 序列为 $C_l=[c_1^l,\cdots c_{L_1}^l]\in R^{L_1\times d_1}$，对于证据，Token 序列为 $C_t=[c_1^t,\cdots ,c_{L_1}^t]\in R^{L_2\times d_1}$。其中，$L_1,L_2$ 分别代表了主张和证据的 Token 数

得到 Token 序列以后，我们需要进一步得到能够帮助我们分析主张的文本片段
（Text Span），并且由此来创建实体节点的表征。具体来说，我们创建一个二元
矩阵 M 来记录关于文本片段的信息。若证据中的第 𝑗 个 token 处在第 𝑖 个 token
的文本片段范围内，则 𝑀𝑖𝑗 = 1，否则 𝑀𝑖𝑗 = 0

然后将矩阵 $C_t$ 和二元矩阵 $M$ 做矩阵乘法，我们就可以得到 $𝐶_t$ 的实体相关行。

最后，我们引用一层平均池化层和最大池化层来分别将这些融合。这些文本片段
在进行拼接，并且送入一个 MLP 层来得到最终的实体节点表示 $e_i^{(0)}\in R^{d_1\times 1}$。对于 $n$ 个实体，就是一个矩阵 $E^{(0)}=[e_1^{(0)},\cdots e_{n}^{(0)}]\in R^{d_1\times n}$

对于语句节点，我们将主张和每个证据句拼接在一起，同样也送入 BERT 来得到语
句节点的特征表示 $s_i=R^{d_1\times 1}$，以及对应的 $m$ 个证据句合在一起的矩阵

$$S^0=[s_1^{(0)},\cdots, s_m^{(0)}]\in R^{d_1\times m}$$

4. 基于推理的节点更新

在此部分中，我们通过基于推理的节点更新来为下游的预测工作提供新的节
点信息。比如为了建模人类的推理过程，我们限制了从细粒度节点到粗粒度
节点的消息传递。此外，我们还对同类节点更新和不同类节点更新应用了不
一样的更新算法。

为了彻底探索同类节点之间的语义关系，我们在实体节点之间以及语句节点
之间采用了图注意力机制。具体来说，给出 $t-1$ 层的节点信息 $E^{t-1}=[e_1^{(t-1)},\cdots, e_n^{(t-1)}]$，首先计算每对连接的实体的注意力分数 $\alpha$

$$\alpha_{i,j}^{(t)}=\frac{\exp(\beta_{ij}^{(t)}}{\sum_k\exp(\beta_{i,k}^{(i)}}$$

$$\beta_{i,j}^{(t)}=LeakyReLU(W_t^T|h_i^{(t)},h_j^{(t)}])$$

$$h_i^{(t)}=U_te^{t-1}_i+b_t$$

在这里我们选用 LeakyReLU 作为激活函数，$U_t\in R^{d_1\times d_1},b_t\in R^{d_1\times 1},W_t\in R^{2d_1}$ 是网络中可用训练的参数。这里的注意力分数 $\alpha_{i,j}$ 衡量了从实体 $i$ 到实体 $j$ 的特征传播的比例。然后我们通过累加邻居节点来得到节点的新信息，即

$$e_j^{(t)}=ReLU(\sum_{i\in B_j}\alpha_{i,j}^{(t)}e_i^{(t)})$$

其中 ReLU 就是我们选取的激活函数，$B_j$ 表示的是实体 $j$ 周围的邻居节点。由此，我们就可以得到更新过了的节点表示 $E^t=[e_1^{(t)},\cdots, e_n^{(t)}$。同理我们也可以得到语句节点的更新 $S^t=[s_1^t,\cdots, s_m^t]$

对于异类节点之间的更新，我们主要考虑两种类型。一是实体节点到语句结
点的更新，二是语句节点到上下文节点的更新。由于它们更新的方式大同小
异，因此我们以前一种，即实体节点到语句节点的更新为例展开分析。

不同于同类节点的更新策略，为了减少上游细粒度带来的影响，以及深度神
经网络中常见的过拟合问题，我们引入了门机制来控制向下游信息更新的比
例。比如给出 $t-1$ 层的实体节点 $E^{(t-1)}=[e_1^{(t-1)},\cdots, e_n^{(t-1)}]$ 以及语句节点 $S^{(t-1)}=[S_1^{(t-1)},\cdots, S_m^{(t-1)}]$，我们首先计算语句节点 $i$ 和实体节点 $j$ 之间的注意力分数。然后我们对于语句 $i$ 累加实体节点特征，记为 $z_i^{(t-1)}$

为了保持来自邻接节点的特征，我们将实体节点之和 $z_i^{(t-1)}$ 与语句特征 $s_i^{(t-1)}$ 结合起来，然后产出一个“候选语句节点” (Candidate Sentence Node)，这是一个长度为 $d_1$ 的一维张量，记为 $u_i^{(t-1)}$，具体表示为

$$u_i^{(t-1)}=W_s(s_i^{(t-1)})+z_i^{(t-1)}$$

其中 $W_s\in R^{d_1\times d_1}$ 为一层 MLP 中的可训练参数。
由于图神经网络很容易导致过拟合问题，尤其是在层数很多的时候，因此我
们采用门机制来更新语句表示。具体来说，我们首先计算“相关分数”
（Relevance Score）$g_i^{(t-1)}$ 来权衡有多少比例的信息来自自身，而有多少比例信息来自之前提到的候选节点。

然后我们用此来生成更新的第 $t$ 层语句节点表示，用公式表示为：

$$g_i^{(t-1)}=sigmoid(W_g([u_i^{(t-1)};s_i^{(t-1)}]))$$

其中 sigmoid 和 tanh 为激活函数。$W_g\in R^{2d_1}$ 为 MLP 中的可训练参数，而 ⊙ 表示按元素乘法。以上是实体节点到语句节点的更新过程，对于语句节点到
上下文节点，也用到了类似的特征传播策略。

最后，为了对人类推理过程进行建模，我们按照如下步骤进行信息传播：

基于实体节点子图，对实体节点表示进行更新
通过聚合实体节点的信息来更新语句节点，再基于语句节点子图再次更新语
句节点
通过聚合语句节点的信息来更新上下文节

5. 预测层

这部分我们以更新过了的节点表示作为输入，然后返回对于事实验证的标签。
我们将会从多种不同的推理路径来进行预测，然后通过适当的加权得到最终
的结果。

我们认为推理是从细粒度到粗粒度的，即实体→语句→上下文。首先从实体
到语句这一过程，我们需要“辨识”（Discriminate）这些节点。首先计算这些
实体到语句 𝑖 的“相关度分数矩阵”（Relevance Scores Matrix）

$$m_i=[m_{i,1},\cdots ,m_{i,n}]=\sigma([\gamma_{i,1},\cdots, \gamma_{i,n}])$$

其中 $W_g\in R^{d_1\times d_1}$ 为权重矩阵，$\sigma$ 为 sigmoid 激活函数。

然后我们对这些被相关系数矩阵 $m_i$ 加权过的实体特征应用平均池化，得到
最终聚合的实体特征（the Final Aggregated Entity Representation），记为 $\tilde{e_i}$。这是一个长度为 $d_1$ 的一维张量，可以表示为

$$\tilde{e}_i=F_{mean-pool}(E_i)$$

$$E_i=F_w(m_i,E)=[m_{i,1},e_1,\cdots, m_{i,n}]$$

我们此时可以将语句节点和上下文节点的特征与 $\tilde{e}_i$ 拼接起来送入 MLP 的输入。在此之后，我们可以得到一条推理路径的最终表示，记为 $p_i$，这也是个一
个长度为 $d_1$ 的一维张量，可以表示为

$$p_i=W_p([\tilde{e}_i,s_i,c])$$

其中 $W_p\in R^{d_1\times 3d_1}$ 是一个可训练的神经网络。

在此之后，我们可以计算每条推理路径 $p_i$ 的“对齐向量”（Aligned Vector），用
$a_i$ 表示。

$$a_i=F_{align}(p_i,\tilde{C_l^T})$$

$$\tilde{C}_l=F_{mean-pool}(C_l)$$

$$F_{align}(x,y)=W_a[x,y,x-y,x\odot y]$$

其中 $\tilde C_l\in R^{d_1}$ 是主张里 Token 特征的平均池化结果，且 $F_{align}$ 表示了对输入 $x,y$ 进行对齐的函数。

接下来，我们可以通过上面得到的对其向量 $a_i$，生成给定主张时，选择推理路径 $p_i$ 的概率

$$p(p_i|C_l)=\frac{\exp(\theta_{p_i})}{\sum_{k=1}\exp(\theta_{p_k})}$$

其中 $W_1’\in R^{1\times H}$ 和 $W_0’\in R^{H\times 2d_1}$，这里的 $H$ 指的是隐藏层大小。

最终，我们可以对主张提出标签预测：

$$P(Y|C_l)=\sum_{k=1}^mP(Y|p_i,C_l)P(p_i|C_l)$$

其中 $Y$ 表示不同的标签，$P(Y|p_c,C_l)$ 指的是通过推理路径 $p_i$，对于给定主张的标签预测概率分布，可以表示为

$$P(Y|p_i,C_l)=softmax(W_lp_i)$$

其中 $W_l\in R^{3\times d_1}$ 是可训练参数。最终，训练模型方面，我们希望最小化交叉熵：

$$L=CrossEntropy(Q(Y),P(Y|C_l))$$

其中 $Q(Y)$ 表示“事实”的标签分布。

四、实验性能

FEVER 是一个经典的事实验证数据集，它包含了 18 万个标有“正确”
（SUPPORTED），“错误”（REFUTE）和“无法确定”（NOT ENOUGH INFO）
标签的主张。作者在 FEVER 数据集上做了测试，并且采用了标签准确性和
FEVER 分数两种评价标准来衡量模型的性能。其中，标签准确性只评价标签的
正确与否，而 FEVER 分数还要求模型是检索到的证据同样是正确的。
作者采用 FEVER 测试的结果如下图

作者团队为了进一步探究模型的效果，提出了如下问题

相比其他竞争对手，团队提出的事实验证方法是否具有明显的优越性？
HHGN 在处理单证据样本和多证据样本的过程是否存在差异性？
节点数和边数是否会影响性能？
基于推理的节点更新和预测层是否真的提升了模型性能？

对于问题一，相比其他竞争对手，团队提出的事实验证方法是否具有明显的优越性？作者实验结果如下，可见优越性是显著的

对于问题二，HHGN 在处理单证据样本和多证据样本的过程是否存在差异性？

为了进一步探索模型的表现，作者根据验证主张（NOT ENOUGH INFO 的不
算在内）所需的证据数，将原始数据集分为两个子集，分别为单证据样本
（Single-Evidence）和多证据样本（Multi-Evidence）。分别作了相应实验后得
到的结果为

可以看到在标签准确度（LA）方面，HHGN 在简单集和复杂集都表现出了优
异的性能。而在难度方面，可以发现复杂集的 LA 在整体上是偏低的，这说明
需要多个证据来验证的主张在事实验证时的难度较高。

而在 FEVER 分数方面，简单集和复杂集的差距被进一步拉大，也就是说
FEVER 分数对主张复杂度会更加敏感。但可以看出，HHGN 此时仍然在所有模
型中表现最好。作者认为这是因为 HHGN 不仅能够给出主张的正确标签，更因
为它能够选择最优的推理路径。

对于问题三，节点数和边数是否会影响性能？为了检验构建的图中的节点数带来的影响，作者根据节点数划分了八个不同的子集，根据边数划分了九个不同的子集分别进行测试。得到结果如下图

首先是层数选择方面，可以看到使用两层 HHGN （红色折线）的性能是最好
的，这说明层数并不是越多越好。一定量的推理层数就足以实现推理所需要的
信息交换。如果层数过多，可能会发生过拟合现象，从而导致语义信息丢失。

然后是节点数方面，可以看到整体上来说模型的性能随着节点数的增加呈现
先增后减的趋势，这表示节点数越多，模型越能捕捉到证据中的关键信息，但
同时也会引入一些与推理无关的噪声信息导致性能下降。

最后是边数方面，与节点数的趋势相反，可以看到整体上来说模型的性能随
着边数的增加呈现先减后增的趋势。作者认为，随着边数增加，图结构的复杂
度升高，这不可避免地引入无关节点之间的信息交换。但边数达到一个比较大
的量级时，模型就可以提取出一些高度相关的实体作为证据，使得引入的噪音
被抑制。

对于问题四，基于推理的节点更新和预测层是否真的提升了模型性能？为了检验节点更新和预测层这些操作的有效性，作者分别去掉了这两个关键
环节，再次进行了实验，得到的结果如图

可以看到，无论去掉哪个部分，都会使得性能产生大幅度下降。这说明了这
两个环节在提高模型准确性上都有重要的意义

五、结论

在本篇论文中，我们引入了一种基于分级推理的异质图神经网络
（Hierarchical reasoning-based Graph Neural Network，HHGN）来解决实施验
证方面的问题。HHGN 采用一种特别的图注意力网络来捕捉不同语义单元之间
的关系。为了对人类的推理过程进行建模，HHGN 应用了分层结构来传递特征。
此外，考虑到一些情况需要单个或多个证据句来验证主张，HHGN 可以通过不
同的推理路径来做出推断。实验结果表明，HHGN 方法比起数据集上的其他竞
争对手具有性能上的优越性，也就是说，HHGN 能够提供一种可解释的，语义
学上的方式来有效验证主张。

林子垚 @ HUST

一、前置知识

二、概念引入