技术标签: 机器学习 深度学习 人工智能 自然语言处理 大数据
每天给你送来NLP技术干货!
来自:FundanNLP
在实体关系抽取中,前人在编码任务特征上大致上可以划分为两类:序列编码(Sequential Encoding)和平行编码(Parallel Encoding)。
序列编码一般按先NER再RE的先后顺序对任务特征进行编码,这种编码方式会使得后编码的特征无法直接影响到先编码的特征,从而导致不平衡的任务间交互。
平行编码则是使用两个独立的编码器来生成任务特征,这种编码方式除了共享输入外就再无其他交互方式, 这会导致不充分的任务间交互。
论文链接:https://arxiv.org/pdf/2108.12202.pdf
代码链接:https://github.com/Coopercoppers/PFN
本文提出了新的编码范式-联合编码(Joint Encoding),并基于该范式设计出一种适配多任务学习的编码器 – 分区过滤编码器(Partition Filter Encoder)。
该编码器能够同时编码NER和RE的任务特征来保证充分平衡的任务间交互,从而有效规避序列编码和平行编码带来的不足。文章的主要贡献如下:
提出一种基于联合编码的分区过滤网络。
模型在6个数据集上取得了SoTA,超过了TpLinker、Table-Sequence、PURE等多个联合/流水线抽取SoTA模型。
探讨了RE对NER的作用,通过辅助实验得出:RE对NER具有显著的促进作用。该结论佐证了联合抽取的必要性以及其相较于流水线抽取的优越性。
模型主要划分为两个模块:分区过滤编码器(Partition Filter Encoder)和解码单元(NER Unit and RE Unit)。解码部分使用了常见的填表方法(Table Filling)。
编码器采用了类似LSTM的自回归形式。对每个时刻,编码过程被划分成了两步:分区(Partition)和过滤(Filter)。分区指的是将神经元划分为三个独立区域:一个共享区(Shared Partition)和两个任务独享区(实体区和关系区),过滤则是将这些分区进行组合,去掉与任务无关的分区。
分区
模型使用了实体门e和关系门r来对神经元进行分区。这里神经元指的是类似LSTM中的cell单元。
首先根据对NER/RE的有用程度,实体门/关系门会把cell划分成两个区域,一个与任务相关,一个与任务无关。如上图所示,根据NER和RE的划分结果,我们最后得到了三个分区,中间的共享区(Shared)表示对NER和RE都有用的信息,两端的任务独享区表示只与单个任务有关的信息。
实体门e和关系门r的计算采用了cummax激活函数,输入为当前时刻的输入xt以及上一时刻的隐状态ht-1:
cummax的计算包括两步:
第一步是对每个神经元进行Softmax()操作,这一步用来确定分区的割点。
第二步计算每个神经元的累加值,即cumsum,得到了近似(0, 0, 1, 1, 1)的二元门(binary gate)。0的部分表示割点之前的神经元,1的部分表示割点之后的神经元。
为了加深理解,举个简单的例子。
假设cell单元有5个神经元,对输入Softmax()后通常会使某个神经元(即割点)的值变得相对较大。假设softmax后值为(0.1, 0.1, 0.6, 0.1, 0.1),在这里割点就是第3个神经元。此时对该序列做cumsum后得到的结果是(0.1, 0.2, 0.8, 0.9, 1.0)。这一结果近似可以看做是划分成两个区域的二元门(0, 0, 1, 1, 1)。
有了实体门e和关系门r之后,三个分区就能够计算出来了:
这里用一个例子来说明上式的逻辑,假设e =(0,1,1),r =(1,1,0)。
公式第1行里对实体门和关系门按元素相乘得到了共享区ρs为(0, 1, 0),即共享信息来自第2个神经元。
公式第2-3行用实体门或者关系门减去共享区得到了任务独享区ρe. ρr分别为(0, 0, 1)和(1, 0, 0),这说明NER和RE的独占信息分别来自第1,3个神经元。
其中公式下标后面的ct-1表示分区的对象是t-1时刻的cell单元。
文章里对两类cell单元分别进行了分区操作,一类是代表历史信息的ct-1,另一类是代表当前信息的ct。最后把两类cell的分区信息加起来,得到了总的分区信息:
过滤
过滤阶段需要对三个分区进行组合过滤,组合过滤的原则是使NER和RE能够平等地获得共享区信息,同时让NER和RE分别专享实体区和关系区信息,这样可以在保证均衡交互的同时剔除掉与任务无关的信息。最后组合的信息分别存储在三个记忆单元中(实体记忆µe,关系记忆µr以及共享记忆µs):
最后对记忆单元进行简单的非线性处理即可得到最后需要的任务特征:
由于模型采用了自回归编码的方式,最后还需要产生下一时刻的cell state和hidden state:
另外作者还提出使用句子级别的全局特征来作为解码的补充信息:
模型在解码的时候把NER和RE分成了两个独立的部分。对句子中的每对单词,作者将词级别的任务特征和句子级别的全局特征进行拼接,把多分类问题转化成多个二分类问题来进行类别预测(NER里是实体类别,RE里是关系类别):
NER(wi, wj)在NER中分别表示实体的首尾词,在RE中分别表示Subject实体和Object实体的起始词。损失函数使用的是二分类损失函数BCEloss。
作者在6个数据集上做了实验,可以看到模型的表现很好,在性能上超过了Tplinker、Table-Sequence和PURE等多个SoTA模型。
消融实验
作者对编码器的层数、方向、编码方式、分区细粒度以及解码方式上都做了消融实验,从结果来看,新提出的联合编码相较于序列编码和平行编码有着不小的提升。
探讨RE对NER的影响
众所周知,NER是RE的上游任务,对RE的具有非常大的促进作用。但是RE是否也会在一定程度上影响NER?这一影响是否大到非做联合抽取不可的程度?前人在这一问题上讨论的很少。
此前对这一问题进行过分析的有“A Frustratingly Easy Approach for Entity and Relation Extraction”。这篇论文提出了流水线抽取模型PURE,并得出RE对NER预测没多大用处的结论。
在本文中,作者对该结论以及即支撑实验提出了质疑,并通过实验得出了与PURE截然相反的结论:RE对NER具有显著的积极影响。
首先作者按照实体是否出现在三元组中将其划分为两类:in-triple和out-of-triple,并分别测试两组实体的抽取效果。
结果显示,NER预测中in-triple实体的F1值要显著高于out-of-triple。这说明预测未出现在三元组中(即不包含RE信息)的实体要更加得困难。
另外作者在NER上使用了鲁棒性测试来评估模型对输入扰动的鲁棒性,扰动方法用了复旦大学张奇老师组提出的TextFlint。
总体来说联合模型在输入扰动下性能下降的幅度要小于其他不引入RE信息的baseline,尤其是CrossCategory(该方法将实体随机替换成其他在多语境下可能存在不同实体类别的实体, 比如同时可作为地名和人名的Washington)。可以看到RE信息的引入让NER预测变得更加鲁棒。
由以上两个实验,作者得出RE对NER具有积极明显的促进作用。并且作者认为由于PURE采用了有偏的实验设置,其结论不具备可靠性。
有偏体现在两点:一是设置联合抽取baseline时对NER和RE使用了Share Encoder,这种方法会造成任务间的侵蚀作用:即对其中一个任务有用的信息,可能对另外一个任务来说是无关甚至有害的。二是采用了out-of-triple类实体占绝大多数比例的ACE05数据集来进行评估,而out-of-triple实体抽取本身并不需要RE信息。
投稿或交流学习,备注:昵称-学校(公司)-方向,进入DL&NLP交流群。
方向有很多:机器学习、深度学习,python,情感分析、意见挖掘、句法分析、机器翻译、人机对话、知识图谱、语音识别等。
记得备注呦
整理不易,还望给个在看!
文章浏览阅读1k次。通过使用ajax方法跨域请求是浏览器所不允许的,浏览器出于安全考虑是禁止的。警告信息如下:不过jQuery对跨域问题也有解决方案,使用jsonp的方式解决,方法如下:$.ajax({ async:false, url: 'http://www.mysite.com/demo.do', // 跨域URL ty..._nginx不停的xhr
文章浏览阅读2k次。关于在 Oracle 中配置 extproc 以访问 ST_Geometry,也就是我们所说的 使用空间SQL 的方法,官方文档链接如下。http://desktop.arcgis.com/zh-cn/arcmap/latest/manage-data/gdbs-in-oracle/configure-oracle-extproc.htm其实简单总结一下,主要就分为以下几个步骤。..._extproc
文章浏览阅读1.5w次。linux下没有上面的两个函数,需要使用函数 mbstowcs和wcstombsmbstowcs将多字节编码转换为宽字节编码wcstombs将宽字节编码转换为多字节编码这两个函数,转换过程中受到系统编码类型的影响,需要通过设置来设定转换前和转换后的编码类型。通过函数setlocale进行系统编码的设置。linux下输入命名locale -a查看系统支持的编码_linux c++ gbk->utf8
文章浏览阅读750次。今天准备从生产库向测试库进行数据导入,结果在imp导入的时候遇到“ IMP-00009:导出文件异常结束” 错误,google一下,发现可能有如下原因导致imp的数据太大,没有写buffer和commit两个数据库字符集不同从低版本exp的dmp文件,向高版本imp导出的dmp文件出错传输dmp文件时,文件损坏解决办法:imp时指定..._imp-00009导出文件异常结束
文章浏览阅读143次。当下是一个大数据的时代,各个行业都离不开数据的支持。因此,网络爬虫就应运而生。网络爬虫当下最为火热的是Python,Python开发爬虫相对简单,而且功能库相当完善,力压众多开发语言。本次教程我们爬取前程无忧的招聘信息来分析Python程序员需要掌握那些编程技术。首先在谷歌浏览器打开前程无忧的首页,按F12打开浏览器的开发者工具。浏览器开发者工具是用于捕捉网站的请求信息,通过分析请求信息可以了解请..._初级python程序员能力要求
文章浏览阅读7.6k次,点赞2次,收藏6次。@Service标注的bean,类名:ABDemoService查看源码后发现,原来是经过一个特殊处理:当类的名字是以两个或以上的大写字母开头的话,bean的名字会与类名保持一致public class AnnotationBeanNameGenerator implements BeanNameGenerator { private static final String C..._@service beanname
文章浏览阅读6.9w次,点赞73次,收藏463次。1.前序创建#include<stdio.h>#include<string.h>#include<stdlib.h>#include<malloc.h>#include<iostream>#include<stack>#include<queue>using namespace std;typed_二叉树的建立
文章浏览阅读7.1k次。在Asp.net上使用Excel导出功能,如果文件名出现中文,便会以乱码视之。 解决方法: fileName = HttpUtility.UrlEncode(fileName, System.Text.Encoding.UTF8);_asp.net utf8 导出中文字符乱码
文章浏览阅读2.1k次,点赞4次,收藏23次。第一次实验 词法分析实验报告设计思想词法分析的主要任务是根据文法的词汇表以及对应约定的编码进行一定的识别,找出文件中所有的合法的单词,并给出一定的信息作为最后的结果,用于后续语法分析程序的使用;本实验针对 PL/0 语言 的文法、词汇表编写一个词法分析程序,对于每个单词根据词汇表输出: (单词种类, 单词的值) 二元对。词汇表:种别编码单词符号助记符0beginb..._对pl/0作以下修改扩充。增加单词
文章浏览阅读773次。我在使用adb.exe时遇到了麻烦.我想使用与bash相同的adb.exe shell提示符,所以我决定更改默认的bash二进制文件(当然二进制文件是交叉编译的,一切都很完美)更改bash二进制文件遵循以下顺序> adb remount> adb push bash / system / bin /> adb shell> cd / system / bin> chm..._adb shell mv 权限
文章浏览阅读6.8k次,点赞12次,收藏125次。1. 单目相机标定引言相机标定已经研究多年,标定的算法可以分为基于摄影测量的标定和自标定。其中,应用最为广泛的还是张正友标定法。这是一种简单灵活、高鲁棒性、低成本的相机标定算法。仅需要一台相机和一块平面标定板构建相机标定系统,在标定过程中,相机拍摄多个角度下(至少两个角度,推荐10~20个角度)的标定板图像(相机和标定板都可以移动),即可对相机的内外参数进行标定。下面介绍张氏标定法(以下也这么称呼)的原理。原理相机模型和单应矩阵相机标定,就是对相机的内外参数进行计算的过程,从而得到物体到图像的投影_相机-投影仪标定
文章浏览阅读2.2k次。文章目录Wayland 架构Wayland 渲染Wayland的 硬件支持简 述: 翻译一篇关于和 wayland 有关的技术文章, 其英文标题为Wayland Architecture .Wayland 架构若是想要更好的理解 Wayland 架构及其与 X (X11 or X Window System) 结构;一种很好的方法是将事件从输入设备就开始跟踪, 查看期间所有的屏幕上出现的变化。这就是我们现在对 X 的理解。 内核是从一个输入设备中获取一个事件,并通过 evdev 输入_wayland