主要是想谈谈最近在BERT中加入了知识图谱(或者宏观说是 外部信息
)的模型。由于BERT的结构已经基本固定了,在上面套一些Attention组件,或者修改里面的MLP或是MHA层都是见怪不怪的操作了,所以文中主要想探讨的是:对于一个预训练模型,如何针对数据/针对想增强的方向来更好的设计一个预训练模型的任务。
你将从文中看到研究者如何通过设计新的mask策略,新的Embed方式,甚至于优化任务的训练过程,迭代学习7个任务等奇妙的方式来实现这一目的。
本文首发在知乎文章,因为 知乎 和 Hexo 的markdown格式有冲突的地方,直接拷过来排版属实不能看,所以请移步下方链接:
本文也被收录至知乎 Paperweekly
专栏及同名公众号中。