中文依存句法分析概述及应用-程序员宅基地

技术标签: 人工智能  

句法分析是自然语言处理领域的一个关键问题,如能将其有效解决,一方面,可对相应树库构建体系的正确性和完善性进行验证;另一方面,也可直接服务于各种上层应用,比如搜索引擎用户日志分析和关键词识别,比如信息抽取、自动问答、机器翻译等其他自然语言处理相关的任务。

短语结构和依存结构是目前句法分析中研究最广泛的两类文法体系。这里先大概介绍下依存结构。

依存文法最早由法国语言学家L.Tesniere在其著作《结构句法基础》(1959年)中提出,对语言学的发展产生了深远的影响,特别是在计算语言学界备受推崇。

依存语法通过分析语言单位内成分之间的依存关系揭示其句法结构,主张句子中核心动词是支配其它成分的中心成分,而它本身却不受其它任何成分的支配,所有受支配成分都以某种依存关系从属于支配者。

在20世纪70年代,Robinson提出依存语法中关于依存关系的四条公理,在处理中文信息的研究中,中国学者提出了依存关系的第五条公理,如下:

1、一个句子中只有一个成分是独立的;
2、其它成分直接依存于某一成分;
3、任何一个成分都不能依存与两个或两个以上的成分;
4、如果A成分直接依存于B成分,而C成分在句中位于A和B之间,那么C或者直接依存于B,或者直接依存于A和B之间的某一成分;
5、中心成分左右两面的其它成分相互不发生关系。



句子成分间相互支配与被支配、依存与被依存的现象普遍存在于汉语的词汇(合成语)、短语、单句、复合直到句群的各级能够独立运用的语言单位之中,这一特点为依存关系的普遍性,依存句法分析可以反映出句子各成分之间的语义修饰关系,它可以获得长距离的搭配信息,并与句子成分的物理位置无关。

附:LTP依存分析模块所使用的依存关系标记含义 (http://ir.hit.edu.cn/demo/ltp)
依存关系标记(共24个)
定中关系ATT(attribute)
数量关系QUN(quantity)
并列关系COO(coordinate)
同位关系APP(appositive)
前附加关系LAD(left adjunct)
后附加关系RAD(right adjunct)
动宾关系VOB(verb-object)
介宾关系POB(preposition-object)
主谓关系SBV(subject-verb)
比拟关系SIM(similarity)
核心HED(head)
连动结构VV(verb-verb)
关联结构CNJ(conjunctive)
语态结构MT(mood-tense)
独立结构IS(independent structure)
状中结构ADV(adverbial)
动补结构CMP(complement)
“的”字结构DE
“地”字结构DI
“得”字结构DEI
“把”字结构BA
“被”字结构BEI
独立分句IC(independent clause)
依存分句DC(dependent clause)

关于中文句法分析的应用,工业界我知道的百度和雅虎都有尝试,

百度的query分析,雅虎利用句法信息做多粒度切词等等。

转载于:https://www.cnblogs.com/sch-2015/p/4953141.html

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/weixin_30788731/article/details/98568359

智能推荐

C语言程序设计部分基础代码(已用MD编辑器重写一篇博客)_c语言编程基础代码-程序员宅基地

文章浏览阅读9.4k次,点赞7次,收藏36次。C语言程序设计部分基础代码(纯手敲,待完善)_c语言编程基础代码

Java反射(通过反射获取构造函数、方法、属性)_java 反射构造函数-程序员宅基地

文章浏览阅读674次。1.通过反射获取构造函数,2.通过反射获取方法,3.通过反射调用成员属性_java 反射构造函数

鸢尾花数据集,特征为连续值数据的决策树的多分类-程序员宅基地

文章浏览阅读1k次,点赞2次,收藏2次。1.导入工具import pandas as pdfrom sklearn import preprocessingfrom sklearn import treefrom sklearn.datasets import load_iris2.导入鸢尾花数据集,探索数据集iris=load_iris()#iris是一个字典,包含了数据、标签、标签名、数据描述等信息。可以通过键来索引对应值。iris#查看iris字典里的所有键dir(iris)iris.data#150个数据,每个

springboot配置国际化_spring i18n can't find bundle for base name messag-程序员宅基地

文章浏览阅读684次。1. springboot引入国际化首先要导入Thymeleaf 模板Thymeleaf 在有网络和无网络的环境下皆可运行,即它可以让美工在浏览器查看页面的静态效果,也可以让程序员在服务器查看带数据的动态页面效果。这是由于它支持html 原型,然后在html 标签里增加额外的属性来达到模板+数据的展示方式。浏览器解释html 时会忽略未定义的标签属性,所以thymeleaf 的_spring i18n can't find bundle for base name messages, locale en_us

多线程与并发—面试题1_java 两个进程一个读,一个写 并发问题-程序员宅基地

文章浏览阅读286次。1、缓存一致性?解决的办法? 当程序在运行过程中,会把数据从主存复制一份到CPU的高速缓存,然后直接从高缓提取数据,然后再刷新回主存中。 解决的办法:1)通过在总线增加LOCK#锁的方式(通过加锁方式,效率会降低) 2)通过缓存一致性协议2、volatile关键字 一旦一个共享变量被volatile修饰,就具备两层含..._java 两个进程一个读,一个写 并发问题

解决Ubuntu下Sublime中无法输入中文问题-程序员宅基地

文章浏览阅读36次。然而,在Ubuntu操作系统中,有时候我们可能会遇到在Sublime Text中无法输入中文的问题。通过安装和配置fcitx输入法框架,并切换到中文输入法,我们可以解决在Ubuntu下Sublime Text中无法输入中文的问题。在Ubuntu操作系统中,当我们尝试在Sublime Text中输入中文时,可能会发现无法输入中文字符,或者输入的中文字符显示为乱码。在Ubuntu上,我们可以使用fcitx输入法框架来解决Sublime Text中无法输入中文的问题。在打开的界面中,点击"+“按钮来添加输入法。

随便推点

环境变量_Anaconda3环境变量的搭建-程序员宅基地

文章浏览阅读468次。Anaconda安装完成后,通常还要进行环境变量的配置,否则会产生如下报错(以Windows10系统中PowerShell终端窗口为例)。在资源管理器任意路径下按住“Shift”键并右击鼠标,选择“在此处打开PowerShell窗口”,并在其中执行命令conda list如果发现系统报错“conda list不能被识别”,这就需要我们进一步手动进行环境变量的配置。01W..._add anaconda3 to my path

optimizer.step()代表什么意思-程序员宅基地

文章浏览阅读5.8k次,点赞20次,收藏49次。`optimizer.step()`是PyTorch中优化器对象的一个方法,用于更新模型的参数。在训练深度神经网络的过程中,我们需要通过反向传播算法计算每一个参数对损失函数的梯度,然后使用优化器更新参数,使得损失函数最小化。而`optimizer.step()`方法就是用于执行参数更新的。_optimizer.step()

iOS 9.3.5 越狱_use privded iffsets-程序员宅基地

文章浏览阅读4.5k次。1. 下载impactor;地址:https://cydia.ooo/cydia-impactor/2. 下载Phoenix.ipa;3. 运行impactor ,安装Phoenix.ipa 到手机上;4. 运行Phoenix. 点击prepare for jailbreak. 然后点Accept. 接着点击Dismiss. 点击下面的Proceed with jai..._use privded iffsets

高并发下接口幂等性解决方案_高并发接口-程序员宅基地

文章浏览阅读303次。现如今我们的系统大多拆分为分布式SOA,或者微服务,一套系统中包含了多个子系统服务,而一个子系统服务往往会去调用另一个服务,而服务调用服务无非就是使用RPC通信或者restful,既然是通信,那么就有可能在服务器处理完毕后返回结果的时候挂掉,这个时候用户端发现很久没有反应,那么就会多次点击按钮,这样请求有多次,那么处理数据的结果是否要统一呢?那是肯定的!尤其在支付场景。_高并发接口

hadoop mysql中文乱码_Hive元数据存于mysql中文乱码解决-程序员宅基地

文章浏览阅读144次。最近在搭一套Hive测试环境,使用mysql存储hive的元数据,然而当执行一个带有中文注释的建表文件时,出现了中文乱码的问题。实验过程中发现把整个数据库编码改成latin1或者Utf8都不行,只有把整个数据库设定为latin1而把要存储中文的数据表的编码设定为UTF8才能够解决。出现问题:执行hive -f "createtable.sql"时说中文乱码不认识。尝试1失败:将meta datab..._create database hadoop_test character set utf-8;为什么会报错?

mysql开启日志占cpu不_MySQL占用CPU过高 查找原因及解决 多种方式-程序员宅基地

文章浏览阅读810次。MySQL占用CPU过高 查找原因及解决 多种方式一、排查有没有地方占用SQL资源过多1、排查方法:>mysql-uroot-p#登陆数据库>********#输入数据库密码2、查看数据库show databases;3、use 数据库名; #切换到常用数据库4、show processlist; #显..._打印mysql日志占用cpu吗