6 G* m8 H- c9 A' W9 U+ a7 P
©原创作者 | 朱林
( G4 D; k( j3 X! d ^& L" R) N
论文解读:
& N" T7 A4 Q- d* `
Contrastive Learning for Many-to-many Multilingual Neural Machine Translation
: a- C6 G; a8 F) ]9 }7 d% ~
论文作者:
% b7 d# F$ }" S5 B; P- ? Xiao Pan, Mingxuan Wang, Liwei Wu, Lei Li
. m) a8 | D9 V: u+ {# q
论文地址:
: ^+ T& i4 m* |2 B# n https://aclanthology.org/2021.acl-long.21.pdf
+ g5 v& b& K6 l) r0 n 收录会议:
; V9 }9 H( e& c) v6 }3 t% A X ACL2021
% v; ?3 `( y. P4 J/ q5 t
01 介绍
S1 b* `8 w- z
目前机器翻译的研究热点仍然集中在英语与其他语言翻译的方向上,而非英语方向的研究成果仍然寥寥无几。
# Y. J; n# ^7 ? 如何有效利用不同语言的特征去构建模型,提高多种语言,尤其是非英语之间的翻译水平是个越发重要的课题。
8 M+ U- o: x$ r2 [/ d 传统思路中,为了解决两种语言机器翻译问题,人们往往分别学习这两种语言的特征再匹配,而忽略了两种语言在特征表达上的较大差异,导致模型效果较差。
4 Q' y, `( z7 g* {' e
本篇ACL会议论文提出了一种统一多语言翻译模型mRASP2来改进翻译性能,利用多语言对比学习能综合表达的优点改进了机器翻译性能,尤其提高了非英语方向的翻译质量。
5 K( r1 I& U: s( K6 M; F
该模型由两种技术支撑:
/ h: J; o8 P& @- }
(1)对比学习,用于缩小不同语言表示之间的差距;
9 G1 U* m# S! Y" s" ~! z
(2)对多个平行语料和单语语料进行数据增强,以进一步对齐标记表示。
8 G. F% q8 e( P 实验表明,以英语为中心的方向,mRASP2模型的性能优于现有的最佳统一模型,并且在WMT数据集的数十个翻译方向上的性能超过了当前性能顶尖的mBART模型。
$ l9 b# r* `& o( p* e# X
在非英语方向,与Transformer基线模型相比,mRASP2也实现了平均10 BLEU(性能指标)以上的性能改进。
5 j: K4 [; o6 r& |1 }* Z 02 方法
& r1 y/ T" |( n0 a0 N mRASP2需要输入一对平行句子(或增强伪平行句子),并使用多语言编解码器计算交叉熵损失。此外,它计算正样本和随机生成的负样本的对比损失,总体框架如图1所示:
" d7 {; U- x" r: o2 w: G- ?# ]/ H. G
图1 mRASP2模型图2 通过替换同义词词典中具有相同含义的单词,对平行数据和单语数据进行对齐增强。生成包括伪平行示例(左)和伪自平行示例(右)。多语言转换器
0 E9 d( f# J4 d3 c. e
模型采用了多语言神经机器翻译(Neural Machine Translation, NMT)模型学习多对多映射函数f,以将一种语言翻译成另一种语言。
) q( H% t) \4 t- g7 R5 B; \; M
为了区分不同的语言,作者在每个句子之前添加了一个额外的语言识别标记,用于源端和目标端。
' a: v( C0 G6 Z. J8 i& L& s0 v4 u mRASP2的基础架构采用的是最先进的Transformer模型。与之前的相关工作略有不同,作者选择了12层编码器和12层解码器,更多的层数可以增加模型的容量。
' q D. y: c3 g$ r C- Y
为了简化深度模型的训练,作者对编码器和解码器的Word Embedding和Pre-norm Residual Connection应用Layer Normalization。
# I: V2 W* y" ~2 ]# k$ e- T9 O 因此,作者的多语言NMT比Transformer模型强得多。
1 \$ D. U4 y7 ~% O0 y 作者定义了
! R, {: }3 }( P1 p5 R
6 {$ r" ]" H, H- [/ E6 I) G 其中L是涉及训练阶段的M种语言的集合。
- x; q& h6 K" X3 K9 J
6 {5 Z2 ]9 c( y" u8 V
表示
[3 P8 Q# p Q$ b" v 3 u" v0 H8 }$ l7 d% a" s! D
的平行数据集,
1 q; m1 |( q9 I9 q; s" k D表示所有平行数据集。该模型训练的损失函数采用了交叉熵的形式,定义为:
* ?6 `1 u" a3 Q5 U7 S+ b
' H2 [9 [& E0 T
; `7 G) D5 F3 G7 T
其中
2 T) T* U, e3 i& @3 l9 r# D
) N( w, `1 n6 I& S 语言中的一个句子,
3 b; X: D! {/ @5 z( L, B( A
3 H* |6 k$ K" v/ Z$ F
是多语言Transformer模型的参数。
m3 b/ M1 q" J3 s: ^4 e
多语言对比学习
# A( M, I8 J) |0 |! R3 S/ F5 S! f% f
模型采用了多语言转换器来隐式地学习不同语言的共享表示。mRASP2引入了对比损失来明确地将不同的语言映射到共享的语义空间。
$ M9 \0 Y* x& n. h/ l
对比学习的关键思想是最小化相似句子的表示差距,最大化不相关句子的表示差距。
) x8 j: v" i! k: K' V
形式上,给定一个双语翻译对
9 K3 l u2 O& n: ?
% `; M. }2 B% P 对比学习的目标是最小化以下损失:
0 e( f3 i: A! H) L p4 T0 l$ a; u/ c
0 H+ D3 Q. h; r/ \- U6 j
其中sim(.)计算不同句子的相似度。+和-分别表示正样本还是负样本。
v x7 q5 K* U
$ K# N; S. T3 R5 t
表示任意句子s的平均池化编码输出。
0 z' ` ^& }) J$ W % O- B' e/ ]! l4 ?
控制着区分正样本和负样本的难度。
5 I% c4 a3 v ^- X
在mRASP2的训练过程中,可以通过联合最小化对比训练损失和翻译损失来优化模型:
4 t* o4 ~) I; d0 m) V: v9 F
6 x+ F9 W% e. q: o: w! F3 d3 E
其中λ是平衡两个训练损失的系数。
9 ?: Y, G ?+ I; |* K4 f 2 a+ v% |* d9 @) A1 T
对齐增强
% X. f% C Y. l1 H1 t, t
作者基于前人提出的随机对齐替换(Random Aligned Substitution, RAS)技术——一种为多语言预训练构建代码切换句
+ a+ C" S/ Z3 r; \$ g ! S3 ]: B! v- N4 Q7 z
9 a! E l G& b( f: P$ S/ Z6 b
03 实验
4 |/ r! K4 z3 v% r4 ]3 Y. i 以英语为中心的方向
- M* O5 _. D& P& u& Z
表1和表2中罗列了作者实验中得到的具有代表性的多个翻译方向的性能增益结果。
: @3 I7 \ {) @, t
表1 监督翻译方向上的性能对比。图2 attention score 和attribution score 示意图监督翻译如表1所示,mRASP2在10个翻译方向上显著提高了多语言机器翻译的基线。以前,多语言机器翻译在资料丰富的场景中表现不佳。
; V: }+ _) `" ]6 ]6 L
作者总结了其成功训练的关键因素包括:
8 r) N& Z7 T5 a3 \$ ]3 K
(1)提高了训练批次:每批包含大约300万个词;
& v6 o/ P5 _0 N/ M3 D (2)增大了模型层数:从6层扩大到了12层;
5 x: t2 u0 G' K6 v3 B* ?8 c6 D- Z
(3)使用正则化方法来稳定训练。
& d' o: s, a3 e( f
无监督方向如表2所示,作者观察到mRASP2在无监督翻译方向上取得了明显有效的结果。实验中,m-Transformer模型永远不会观察到En-Nl、En-Pt和En-Pl的语言对,即它在En→X的翻译方向上完全无效。相比之下,mRASP2平均获得+14.13BLEU分数,而没有明确引入这些方向的监督信息。
" m# k/ e% O, { 此外,mRASP2在Nl↔Pt方向上获得了明显有效的BLEU分数,即使它只在双方的单语数据上进行了训练。这表明通过在统一框架中简单地将单语数据与平行数据合并,mRASP2就可以成功地实现了无监督翻译。
, G8 ?2 y/ y" B 非英语方向的零样本翻译
8 u; J$ F* ?! _ 表3 零样本翻译性能对比零样本翻译一直是多语言神经机器翻译中的一个有趣话题。以前的工作表明,多语言NMT模型可以直接进行零样本翻译。
- h# T9 D% p6 n% a6 O( P9 F+ ?; Q/ o
作者在OPUS-100零样本测试集上评估了mRASP2。作者发现mRASP2性能显著优于m-Transformer,并且大大缩小了与基于Pivot的模型的差距。这符合作者的直觉,即弥合不同语言的表示差距可以改善零样本翻译。
" X) U5 C3 U1 \ 作者认为主要原因是对比损失、对齐增强和额外的单语数据能够更好地表示与语言无关的句子。值得注意的是,其他模型是以牺牲英语为中心方向上翻译质量作为代价实现了零样本翻译的性能提升。
1 o) J2 K+ B0 p/ [+ P 相比之下,mRASP2在不损失以英语为中心的方向上的性能的情况下,大大提高了零样本翻译的性能。因此,mRASP2具有服务于多对多翻译的巨大潜力,包括以英语为中心和非英语方向。
4 s) ]9 A- E, m& N x
消融实验
( \: L- v n6 ] 表4 mRASP2在不同设置下在不同场景中的平均BLEU汇总为了更好地解释mRASP2的有效性,作者评估了不同设置模型的性能。作者总结了表4中的实验结果。
u! C( Z' D4 g: E0 Z" |) v ①对③:③在有监督和无监督的场景中的性能与m-Transformer相当,而在零样本翻译方面实现了显著的BLEU改进。这表明通过引入对比损失,作者可以在不损害其他方向的情况下提高零样本翻译质量。
. O* V( N A* S5 l* M, v9 L4 @
②对④:②在零样本方向上表现不佳。这意味着对比损失对于零样本方向的性能至关重要。
2 n. l/ ]: j6 L) [
⑤:mRASP2在所有三个场景中都进一步改进了BLEU,尤其是在无监督方向上。
; C& S c7 A% D4 `
相似性搜索
: W- T7 @$ A* V& @$ }% f8 i
图3 精度改进图,更深的红色意味着更大的改进。mRASP2 w/o AA模型与m-Transformer模型的精度差(左),mRASP2模型与mRASP2 w/o AA模型的精度差(右)如图3所示,为了验证mRASP2是否学习了更好的表示空间,作者进行了一组相似性搜索实验。相似度搜索是根据余弦相似度寻找另一种语言中每个句子的最近邻的任务。
/ h+ k' P, s6 w; L- Q 作者使用相似性搜索任务的准确性作为跨语言表示对齐的定量指标,并用实验证明了mRASP2更有利于这项任务,因为它拟合了跨语言的表示差距。
, ?& ^7 t6 G7 X' o7 u; e
可视化
2 R6 t3 b* I! v! g: A 图4 使用T-SNE降维到2维后表示的双变量核密度估计图。蓝线是英文,橙线是日文,绿线是德文。为了可视化跨语言的句子表示,作者在Ted-M中检索每个句子的句子表示,在高维空间中产生34260个样本。
$ I" Y0 h( j8 i" J
为了便于可视化,作者应用T-SNE降维方法将1024维降到2维。然后作者选择3种代表性语言:英语、德语、日语,并基于2维表示描述双变量核密度估计。
( @! X5 d2 w1 t3 f1 U
在图4中明显可以看到,m-Transformer无法对齐3种语言。相比之下,mRASP2更接近地绘制了3种语言的表示。
7 i- \6 D1 W- E& I y: w 04 结论
0 g, T& i* J& N
本篇论文中,作者证明了对比学习可以显著改善零样本机器翻译性能。结合额外的无监督单语数据,作者在多语NMT的所有翻译方向上均取得了实质性的改进。
- I1 \6 U( A. @3 M: S: _ 通过分析和可视化mRASP2,发现对比学习倾向于缩小不同语言的表示差距。
+ W: M5 B( [ S+ X* R+ q
作者的结果还表明了训练出真正的多对多多语言NMT的可能性,该NMT在任何翻译方向上都能很好地工作。
/ T- r* M1 {8 m v3 L% @) { 通过对本篇论文的解读,我们能够发现机器翻译正在向多个不同的研究方向继续深入发展:
1 q$ ~6 x2 r$ u4 d* x" [- n1 v (1) 英语方向翻译正在朝非英语方向进行横向扩展和迁移学习;
" f% a2 b# r& [/ A8 Z0 ^( t6 ~* [
(2) 语言特征表达正在朝更多维度和更有解释性的维度进行扩展,比如本文的多语言融合特征缩小了语言表达差距并进行了可视化。
: h' q1 p8 _: b7 m (3) 多语言统一翻译模型的构建成为趋势。
6 p3 w) u/ R( S1 f; \! N+ ?- K
注:本篇论文的代码、数据和训练模型均可从Github上获得:
' W. O" u' z$ S" w. A- E https://github.com/PANXiao1994/mRASP2
. s7 i$ |/ E- o2 E8 k5 F 私信我领取目标检测与R-CNN/数据分析的应用/电商数据分析/数据分析在医疗领域的应用/NLP学员项目展示/中文NLP的介绍与实际应用/NLP系列直播课/NLP前沿模型训练营等干货学习资源。
+ h4 Y2 X/ Z3 r, Y9 x+ y2 ?