在本文中,我们提出了一种新的实体关系提取任务范式。我们将任务转换为多回答问题回答问题,即实体和关系的提取被转换为从上下文识别答案跨度的任务。这种多转QA形式化具有几个关键优势:首先,问题查询为我们想要识别的实体/关系类编码重要信息;其次,质量保证提供了一种自然的实体和关系建模方式;第三,它允许我们利用完善的机器阅读理解(MRC)模型。
识别实体及其关系是从非结构化原始文本中提取结构化知识的先决条件,这些知识近年来越来越受到关注。给定一大块自然语言文本,实体关系提取的目标是将其转换为结构知识库。例如,给出以下文本:
In 2002, Musk founded SpaceX, an aerospace manufacturer and space transport services Company, of which he is CEO and lead designer. He helped fund Tesla, Inc., an electric vehicle and solar panel manufacturer, in 2003, and became its CEO and product architect. In 2006, he inspired the creation of SolarCity, a solar energy services Company, and operates as its chairman. In 2016, he co-founded Neuralink, a neurotechnology Company focused on developing braincomputer interfaces, and is its CEO. In 2016, Musk founded The Boring Company, an infrastructure and tunnel-construction Company.
大多数现有模型通过从文本中提取三元组列表来接近该任务,即REL(),其表示实体与实体之间的REL关系。以前的模型分为两大类:流水线方法,首先使用标记模型来识别实体,然后使用关系提取模型来识别每个实体对之间的关系;联合方法,通过不同的策略,如约束或参数共享,将实体模型和关系模型结合起来。
当前的ap apaches存在几个关键问题,无论是在任务形式化还是算法方面。在形式化级别,REL()三元组结构不足以完全表达文本背后的数据结构。以Musk案例为例,标签之间存在层次依赖关系:时间的提取取决于位置,因为一个人可以在不同的时间段内在公司中持有多个职位;职位的提取也取决于公司,因为一个人可以为多家公司工作。在算法层面,对于大多数现有的关系提取模型(Miwa和Bansal,2016; Wang等,2016a; Ye等,2017),模型的输入是一个带有两个标记提及的原始句子,并且输出是两个提及之间是否存在关系。正如Wang等人所指出的那样。 (2016a);曾等人。 (2018),神经模型很难捕捉到这种形式化中的所有词汇,语义和句法线索,特别是当(1)实体很远时; (2)一个实体涉及多个三胞胎; (3)一个句子包含多个相同类型的关系; (4)关系跨度有重叠3。
在本文中,我们提出了一个新的范例来处理实体关系提取的任务。我们将任务形式化为多回答问题回答任务:每个实体类型和关系类型以问答模板为特征,通过回答模板问题来提取实体和关系。
将实体关系提取任务视为多回合QA任务具有以下关键优势:
(1)多回合QA设置提供了捕获标签的层次依赖性的优雅方式。随着多回合QA的进行,我们逐步获得下一回合所需的实体。这与多回合插槽填充对话系统(Williams和Young,2005; Lemon等,2006)非常相似.
(2)问题查询为我们想要识别的实体/关系类编码重要的先验信息。例如,文本中提到的PER标记类的查询中的信息有助于模型提取相关的名称实体。相反,在传统的非QA实体关系提取模型中,标记类或关系类仅仅是索引(class1,class2,…),并且不编码关于类的任何信息。这种信息性可以潜在地解决现有关系提取模型无法解决的问题,例如远程分离的实体对,关系跨度重叠等;
(3)QA框架提供了一种同时提取实体和关系的自然方式:大多数MRC模型支持输出特殊的NONE标记,表明该问题没有答案。通过这个,原始的两个任务,实体提取和关系提取可以合并为一个QA任务:如果对应于该关系的问题的返回答案不是NONE,则关系成立,并且返回的答案是我们希望的实体提取。
许多早期的实体关系提取系统是流水线的(Zelenko等,2003; Miwa等,2009; Chan和Roth,2011; Lin等,2016):实体提取模型首先识别感兴趣的实体和关系然后,提取模型构造提取的实体之间的关系。虽然流水线系统具有集成不同数据源和学习算法的灵活性,但它们受错误传播的影响很大。
为了解决这个问题,提出了联合学习模型。
存在将非QA NLP任务作为QA任务投射的趋势(McCann等,2018)。我们的工作受到Levy等人的高度启发。 (2017)。
对于ACE04,ACE05和CoNLL04数据集,只需要两次QA转弯。因此ChainOfRelTemplates只包含1的链。对于RESUME,我们需要提取4个实体,因此ChainOfRelTemplates包含3个链。
每个实体类型都与模板生成的类型特定问题相关联,如表3所示。有两种方法可以根据模板生成问题:自然语言问题或伪问题。伪问题不一定是语法问题。例如,Facility类型的自然语言问题可能是文本中的哪一个是设施,而伪问题可能只是实体:设施
在关系和尾部实体联合提取阶段,通过将关系特定模板与提取的headentity相结合来生成问题。问题可能是自然语言问题或伪问题。实例显示在表4和表5中。
已经提出了各种MRC模型,例如BiDAF(Seo等人,2016)和QANet(Yu等人,2018)。在标准MRC设置中,给出一个问题,其中表示Q中的字数,以及上下文,其中表示C中的字数,我们需要预测答案范围。对于QA框架,我们使用BERT(Devlin等,2018)作为主干。BERT使用变换器对大规模数据集进行预训练(Vaswani等,2017),并在SQUAD等MRC数据集上实现SOTA结果(Rajpurkar等,2016)。为了与BERT框架保持一致,通过连接列表[CLS,Q,SEP,C,SEP]来组合问题Q和上下文C,其中CLS和SEP是特殊令牌,Q是标记化问题,C是上下文。使用多层变换器获得每个上下文令牌的表示。
传统的MRC模型(Wang和Jiang,2016; Xiong等,2017)通过将两个softmax层应用于上下文令牌来预测起始和结束指数。这种基于softmax的跨度提取策略仅适用于单答案提取任务,但不适用于我们的任务,因为我们设置中的一个句子/段落可能包含多个答案。为了解决这个问题,我们将任务正式化为基于查询的标记问题(Lafferty等,2001; Huang等,2015; Ma和Hovy,2016)。特别地,我们预测给定查询的上下文中的每个标记的BMEO(开始,内部,结束和外部)标签。每个单词的表示被馈送到softmax层以输出BMEO标签。人们可以认为我们正在改变两个N级分类任务,即预测起始和结束指数(其中N表示句子的长度)到N 5级分类任务
请注意,在我们的设置中,从一个回合中提取的答案不仅会影响其自身的准确性,还会确定如何为下游转弯构建问题,从而影响以后的准确性。
对于多回合QA设置中的每个回合,获得正确答案会获得+1的奖励。最终的奖励是所有回合的累积回报。基线值设置为所有先前奖励的平均值。我们不会从头开始初始化策略网络,而是使用前一节中描述的预先训练的头部实体和尾部实体提取模型。我们还使用the experience replay strategy(Mnih等,2015):对于每个批次,一半的示例是模拟的,另一半是从先前生成的示例中随机选择的。
对于ACE04,ACE05和CoNLL-04,不需要课程学习,因为只有两个回合。
答案是根据人(第一个转弯),公司(第二个转弯),位置(第三个转弯)和时间(第四个转弯)的顺序提取的,每个答案的提取取决于之前的答案。
涉及实体和关系识别阶段(流水线或联合)的现有基线非常适合三重提取,但不适合我们的设置,因为在第三轮和第四轮,我们需要更多信息来决定关系而不仅仅是两个实体。例如,要提取职位,我们需要人和公司,并提取时间,我们需要人,公司和职位。这类似于依赖性解析任务,但是在标记级而不是单词级(Dozat和Manning,2016; Chen和Manning,2014)。因此,我们提出了以下基线,它将前一个实体+关系策略修改为实体+依赖关系,用标记+依赖关系表示。我们使用BERT标记模型为每个单词分配标记标签,并修改当前SOTA依赖性解析模型Biaf fi ne(Dozat和Manning,2016)以构建标记之间的依赖关系。Biaf fi ne依赖模型和实体提取模型是联合训练的。
结果如表6所示。可以看出,标记+依赖模型优于标记+关系模型。所提出的多转QA模型表现最佳,RL增加了额外的性能提升。特别地,对于仅需要单匝QA的人员提取,多匝QA + RL模型执行与多匝QA模型相同的操作。这也是标记+关系和标记+依赖的情况。
在这一小节中,我们比较了自然语言问题和伪问题的影响。结果显示在表8中。我们可以看到自然语言问题导致所有数据集中的F1严格改进。这是因为自然语言问题提供了更细粒度的语义信息,可以帮助实体/关系提取。相比之下,伪问题提供了非常粗粒度,模糊和隐含的实体和关系类型提示,这甚至可能使模型混淆。
文章浏览阅读331次。第一部分:准备工作1 安装虚拟机2 安装centos73 安装JDK以上三步是准备工作,至此已经完成一台已安装JDK的主机第二部分:准备3台虚拟机以下所有工作最好都在root权限下操作1 克隆上面已经有一台虚拟机了,现在对master进行克隆,克隆出另外2台子机;1.1 进行克隆21.2 下一步1.3 下一步1.4 下一步1.5 根据子机需要,命名和安装路径1.6 ..._创建一个hadoop项目
文章浏览阅读1.7k次。心脏滴血漏洞HeartBleed CVE-2014-0160 是由heartbeat功能引入的,本文从深入码层面的分析该漏洞产生的原因_heartbleed代码分析
文章浏览阅读1.4k次。前言ofd是国家文档标准,其对标的文档格式是pdf。ofd文档是容器格式文件,ofd其实就是压缩包。将ofd文件后缀改为.zip,解压后可看到文件包含的内容。ofd文件分析工具下载:点我下载。ofd文件解压后,可以看到如下内容: 对于xml文件,可以用文本工具查看。但是对于印章文件(Seal.esl)、签名文件(SignedValue.dat)就无法查看其内容了。本人开发一款ofd内容查看器,..._signedvalue.dat
文章浏览阅读1.8w次,点赞29次,收藏313次。整体系统设计本设计主要是对ADC和DAC的使用,主要实现功能流程为:首先通过串口向FPGA发送控制信号,控制DAC芯片tlv5618进行DA装换,转换的数据存在ROM中,转换开始时读取ROM中数据进行读取转换。其次用按键控制adc128s052进行模数转换100次,模数转换数据存储到FIFO中,再从FIFO中读取数据通过串口输出显示在pc上。其整体系统框图如下:图1:FPGA数据采集系统框图从图中可以看出,该系统主要包括9个模块:串口接收模块、按键消抖模块、按键控制模块、ROM模块、D.._基于fpga的信息采集
文章浏览阅读2.5w次。1.背景错误信息:-- [http-nio-9904-exec-5] o.s.c.n.z.filters.post.SendErrorFilter : Error during filteringcom.netflix.zuul.exception.ZuulException: Forwarding error at org.springframework.cloud..._com.netflix.zuul.exception.zuulexception
文章浏览阅读358次。1.介绍图的相关概念 图是由顶点的有穷非空集和一个描述顶点之间关系-边(或者弧)的集合组成。通常,图中的数据元素被称为顶点,顶点间的关系用边表示,图通常用字母G表示,图的顶点通常用字母V表示,所以图可以定义为: G=(V,E)其中,V(G)是图中顶点的有穷非空集合,E(G)是V(G)中顶点的边的有穷集合1.1 无向图:图中任意两个顶点构成的边是没有方向的1.2 有向图:图中..._给定一个邻接矩阵未必能够造出一个图
文章浏览阅读321次。(十二)、WDS服务器安装通过前面的测试我们会发现,每次安装的时候需要加域光盘映像,这是一个比较麻烦的事情,试想一个上万个的公司,你天天带着一个光盘与光驱去给别人装系统,这将是一个多么痛苦的事情啊,有什么方法可以解决这个问题了?答案是肯定的,下面我们就来简单说一下。WDS服务器,它是Windows自带的一个免费的基于系统本身角色的一个功能,它主要提供一种简单、安全的通过网络快速、远程将Window..._doc server2012上通过wds+mdt无人值守部署win11系统.doc
文章浏览阅读219次。python–xlrd/xlwt/xlutilsxlrd只能读取,不能改,支持 xlsx和xls 格式xlwt只能改,不能读xlwt只能保存为.xls格式xlutils能将xlrd.Book转为xlwt.Workbook,从而得以在现有xls的基础上修改数据,并创建一个新的xls,实现修改xlrd打开文件import xlrdexcel=xlrd.open_workbook('E:/test.xlsx') 返回值为xlrd.book.Book对象,不能修改获取sheett_xlutils模块可以读xlsx吗
文章浏览阅读8.2w次,点赞267次,收藏656次。运行Selenium出现'WebDriver' object has no attribute 'find_element_by_id'或AttributeError: 'WebDriver' object has no attribute 'find_element_by_xpath'等定位元素代码错误,是因为selenium更新到了新的版本,以前的一些语法经过改动。..............._unresolved attribute reference 'find_element_by_id' for class 'webdriver
文章浏览阅读198次。一:模态窗口//父页面JSwindow.showModalDialog(ifrmehref, window, 'dialogWidth:550px;dialogHeight:150px;help:no;resizable:no;status:no');//子页面获取父页面DOM对象//window.showModalDialog的DOM对象var v=parentWin..._jquery获取父window下的dom对象
文章浏览阅读1.7w次,点赞15次,收藏129次。算法(algorithm)是解决一系列问题的清晰指令,也就是,能对一定规范的输入,在有限的时间内获得所要求的输出。 简单来说,算法就是解决一个问题的具体方法和步骤。算法是程序的灵 魂。二、算法的特征1.可行性 算法中执行的任何计算步骤都可以分解为基本可执行的操作步,即每个计算步都可以在有限时间里完成(也称之为有效性) 算法的每一步都要有确切的意义,不能有二义性。例如“增加x的值”,并没有说增加多少,计算机就无法执行明确的运算。 _算法
文章浏览阅读1.5k次,点赞18次,收藏26次。网络安全的标准和规范是网络安全领域的重要组成部分。它们为网络安全提供了技术依据,规定了网络安全的技术要求和操作方式,帮助我们构建安全的网络环境。下面,我们将详细介绍一些主要的网络安全标准和规范,以及它们在实际操作中的应用。_网络安全标准规范