‘壹’ 什么是“语料库语言学”
语料库语言学
语料库语言学是20世纪80年代才崭露头角的一门交叉学科,它研究自然语言文本的采集、存储、加工和统计分析,目的是凭借大规模语料库提供的客观翔实的语言证据来从事语言学研究和指导自然语言信息处理系统的开发。
语料库顾名思义就是放语言材料的仓库。现在人们谈起语料库,不言而喻是指存放在计算机里的原始文本或经过加工后带有语言学信息标注的语料文本。现在世界上已经有了不少规模较大的语料库,有些是国家级的,有些由大学和词典出版商联合建设。另外,由于个人微机的迅猛发展和存贮数据的硬盘造价持续下降,研究者个人也开始建立适合于自己研究的小型语料库。
语料库语言学(英文corpuslinguistics)这个术语有两层主要含义。一是利用语料库对语言的某个方面进行研究,即“语料库语言学”不是一个新学科的名称,而仅仅反映了一个新的研究手段。二是依据语料库所反映出来的语言事实对现行语言学理论进行批判,提出新的观点或理论。只有在这个意义上“语料库语言学”才是一个新学科的名称。从现有文献来看,属于后一类的研究还是极个别的。所以,严格地说,现在不能把语料库语言学跟语言学的分支,如社会语言学、心理语言学、语用学等相提并论。
近年来,随着我国经济的发展,科研经费的增加,汉语语料库的建设得到了开展。1999年我院把建立汉语语料库列为院重大课题。目前语言所正在构建三个大规模的语料库:现场即席话语语料库,主要方言口语库和现代汉语文本语料库。在世界范围内,我国的语料库建设在规模上还赶不上欧洲的一些发达国家,特别是英国。然而,在语料库语言学的研究上,以及语料库的实际运用上,我国已经进入世界前沿的行列。
20世纪语言研究的总特点可以用四个字概括———高度抽象。最近几十年来,语言研究的高度抽象倾向已经失去主导地位。这主要缘于两个方面的因素:一是计算机技术,特别是基于计算机处理的多媒体技术的飞氏团升速发展;二是社会语言学歼老、语用学、会话分析、人类语言学、计算语言学、人机对话研究、语音识别与合成等研究取得令人瞩目的成就。先前难以抓住并进行有效处理的五花八门的实际语料,现在可以对其进行大规模地的、自动的或人机配合的处理。比如个人发音特征,先前认为这跟语言学毫无关系,现在成了侦破语音学的重要内容。侦破语音学家首先建立个人发音特征语料库,这个语料库可以用来鉴别嫌疑犯。概言之,当今的语言研究由先前的高度抽象逐步走向最具体的语言的实际活动,其中包括神经元的运动。比如神经语言学就是要揭开人类大脑神经是如何处理语言这个秘密的学科。
语料库和语料库语言学在当今语或兄言研究由高度抽象转向语言的实际使用这个过渡中起着十分重要的作用:一是提供真实语料;二是提供统计数据;三是验证现行的理论;四是构建新的理论。这些可以说是语料库和语料库语言学的实用价值。提供真实语料可以说是词典编纂的生命线。现在流行的英语词典几乎全部是基于大规模语料库编纂而成的。基于大规模语料库的英语语法书也已经问世。通过大规模语料库建立统计模型成为语言信息处理和加工的主流模式。先前基于规则的机器翻译、语音合成与识别、文语转换等如没有大规模语料库的数据支持,要取得好成果是不可能的。在理论建设上,基于英国国家语料库英语口语库的研究表明,基于真实英语口语语料的英语口语语法跟基于书面语的语法大不相同,甚至可以夸张地说,是不同的语法。
在欧洲,语料库语言学已经成为语言学的主流分支。相信在注重语言实际的我国,语料库语言学也将受到越来越多的研究者的重视,取得丰硕的成果。
参考资料:中国社会科学院院报
‘贰’ 语料库的概述
名词(corpus,复数corpora)
指经科学取样和加工的大规模电子文本库。借助计算机分析工具,研究者可开展相关的语言理论及应用研究。
corpus
n. (pl. corpora)
refers to a large collection of well-sampled and processed electronic texts, on which language studies, theoretical or applied, can be concted with the aid of computer tools.
语料库是语料库语言学研究的基础资源,也是经验主义语言研究方法的主要资源。应用于词典编纂,语言教学,传统语言研究,自然语言处理中基于统计或实例的研究等方面。 语料库有多种类型,确定类型的主要依据是它的研究目的和用途,这一点往往能够体现在语料采集的原则和方式上。有人曾经把语料库分成四种类型:⑴异质的(Heterogeneous):没有特定的语料收集原则,广泛收集并原样存储各种语料;⑵同质的(Homogeneous):只收集同一类内容的语料;⑶系统的(Systematic):根据预先确定的原则和比例收集语料,使语料具有平衡性和系统性,能够代表某一范围内的语言事实;⑷专用的(Specialized):只收集用于某一特定用途的语料。
除此之外,按照语料的语种,语料库也可以分成单语的(Monolingual)、双语的(Bilingual)和多语的(Multilingual)。按照语料的采集单位,语料库又可以分为语篇的、语句的、短语的。双语和多语语料库按照语料的组织形式,还可以分为平行(对齐)语料库和比较语料库,前者的语料构成译文关系,多用于机器翻译、双语词典编撰等应用领域,后者将表述同样内容的不同语言文本收集到一起,多用于语言对比研究。已经累积了大量各种类型的语料库,如:葡萄牙语种树库、面向文本分类研究的中英文新闻分类语料库、路透社文本分类训练语料库、中文文本分类语料库、大开放字幕库OpenSubtitles的多语言平行语料数据(OpenSubtitles Corpus)、《圣经》双语语料库(Bible bilingual corpus)、Short messages service(SMS) corpus(短消息服务(SMS)语料)等。 语料库有三点特征
⒈语料库中存放的是在语言的实际使用中真实出现过的语言材料,因此例句库通常不应算作语料库;
⒉语料库是承载语言知识的基础资源,但并不等于语言知识;
⒊真实语料需要经过加工(分析和处理),才能成为有用的资源。
语料库的发展经历了前期(计算机发明以前),第一代语料库,第二代语料库,到第三代语料库
‘叁’ 语料库怎么用
问题一:怎样利用语料库 仅一个文本肯定是不够的,要有很多文本,而为了保证文本的真实性(不能自己凭空捏造),所以做科学研究的时候慎敏蔽就需要建立在语料库的基础上,所以说是基于语料库的研究。比如,我研究一个作家的语言风格,我就要建立在他创作出来的文本之上;我要研究汉语的一些语言现象,一般就要建立在平衡语料库之上,研究其他语言同样。语料库一般都会有人创建的,不需要自己做。
问题二:王陆语料库怎么使用?书写的好简单啊 只是看起来简拿者单,很多的单词是看起来认识,听起来就不知道是什么了。楼上说的方法是对的,但是正确率不是90%以上,而是95%以上。
问题三:怎么用语料库分类 python 把自己的语料库(sogou文本分类语料库)放在LTK_DATA/corpora/目录下;
然后在命令行输入以下之后,即可看到所有的txt文件名列表了。
问题四:怎样利用语料库 CORPUS4U是语料库的大家庭,很好的学习地方。北外的许家金、中科院艾海洋、新加坡国立大学洪华清等高手云集,好好学吧。
问题五:有谁知道北大ccl语料库怎么使用 使用网页版(双击就可以进入了):CCL语料库检索系统(网络版)
检索结果是可以直接下载的,在检索结果的左边有下载的按钮,如果需要下载超过500条(默认)的检索结果,可以修改这个数字。
如果需要下载整个CCL语料库,现在改版后的版本比较难了,以前的很容易。
问题六:怎么是使用北京语言大学的语料库啊? 有很多同行、高手帮你解决问题,互动性很强。好像不连接到北大中文语料库,也不能查找。主要是同行间的互相交流,也会提供很多语料库相关资源。
好像服务器在香港,有时不好上。
问题七:王陆的听力语料库是什么,该怎么用? 没什么用,把不会的背一背吧。我根本没听过那本书的mp3,听力还是8.5
问题八:bnc语料库怎么使用 如题,希望答主详细说明这两个语料库的正确使用方法。
以及,除此之外,还有哪些对学习翻译和翻译实际应用来说比较方便的语料库呢?
非常感谢。宽州如题,希望答主详细说明这两个语料库的正确使用方法。
以及,除此之外,还有哪些对学习翻译和翻译实际应用来说比较方便的语料库呢?
非常感谢。
‘肆’ 什么是语料库
语料库中存放的是在语言的实际州孙使用中真实出现过的语言材料。
‘伍’ 如何给语料分类,语料分类的原则和标准
语料库建设中涉及的主要问题包括:
(1)
设计和规划:主要考虑语料库的用途、类型、规模、实现手段、质量保证、可扩展性等。
(2)
语料的采集:主要考虑语料获取、数据格式、字符编码、语料分类、文本描述,以及各类语料的比例以保持平衡性等。
(3)
语料的加工:包括标注项目(词语单位、词性、句法、语义、语体、篇章结构等)标记集、标注规范和加工方式。
(4)
语料管理系统的建设:包括数据维护(语料录入、校对、存储、修改、删除及语料描述信息项目管理)、语料自动加工(分词、标注、文本分割、合并、标记处理等)、用户功能(查询、检索、统计、打印等)。
(5)
语料库的应用:针对语言学理论和应用领域中的各种问题,研究和开发处理语料的算法和工具。
我国语料库的建设始于80年代,当时的主要目标是汉语词汇统计研究。进入90年代以后,语料库方法在自然语言信息处理领域得到了广泛的应用,建立了各种类型的语料库,研究的内容涉及语料库建设中的各个问题。90年代末到新世纪初这几年是语料库开发和应用的进一步发展时期,除了语言信息处理和言语工程领域以外,语料库方法在语言教学、词典编纂、现代汉语和汉语史研究等方面也得到了越来越多的应用。
语料库与语言信息处理有着某种天然的联系。当人们还不了解语料库方法的时候,在自然语言理解和生成、机器翻译等研究中,分析语言的主要方法是基于规则的(Rule-based)。对于用规则无法表达或不能涵盖的语言事实,计算机就很难处理。语料库出现以后,人们利用它对大规模的自然语言进行调查和统计,建立统计语言模型,研究和应用基于统计的(Statistical-based)语言处理技术,在信息检索、文本分类、文本过滤、信息抽取等应用方向取得了进展。另一方面,语言信息处理技术的发展也为语料库的建设提供了支持。从字符编码、文本输入和整理,语料的自动分词和标注,到语料的统计和检索,自然语言信息处理的研究都为语料的加工提供了关键性的技术。
‘陆’ 语料库中怎么计算一个单词每千字大小
输入字符(A1/B1)*1000。根据查询语料脊贺库相关信息得知,输入字符(A1/B1)*1000计算一个单词每千字大小。语料库是以电子计算机樱轿派为载体承载语言知识帆腊的基础资源。
‘柒’ 语料库怎么用 国家“语料库”全解析
“国家语委前排的二层小楼简直就成了军事基地,谁都不能随便进入,录入工作是由解放军二炮某部完成的。录入进来的字词,又人工校对了7遍。”2012年7月25日,国家语言资源监测与研究中心平面媒体分中心、北京语言大学、中国新闻技术工作者联合会、中国中文信息学会联合发布“2012年春夏季中国报纸流行语”。“神舟九号”位居综合类流行语第一,其他进敬州入前十的流行语是:明胶、黄岩岛、伦敦奥运会、穆巴拉克、小微企业、欧洲杯、学雷锋、农业科技和舌尖上的中国。
2005年,教育部语言文字信息管理司和国内一些高校联合建设了国家语言资源监测与研究中心,上述平面媒体分中心的主要任务是建设平面媒体动态流通语料库,自2001年开始,每年根据“发行量、发行地域、发行周期、媒体价值、阅读率哪银”等因素,选择15种网络版报纸内容作为语料库的采集源,目前已形成了近30亿字的“国家语言资源监测语料库”。
利用监测语料库,国家语言资源监测与研究中心从2005年开始发布中国语言生活状况报告、年度流行语和年度新词。
“上述工作就是在网络上搜集上亿字的资源,分领域抓文本,看词语集,做交集,按时间段跟踪,测算词语使用频率并解释其背后的经济社会文化背景。”原教育部语言文字应用研究所副所长、国家语委语言文字规范标准测查认证中心主任靳光瑾告诉《了望东方周刊》。
“我们这个时代已经进入到语料库时代,也就是用电子形式保存的真实语言材料将作为对一个时代的记录而被保存。”北京语言大学党委书记、原教育部语言文字信息管理司司长李宇明在接受《了望东方周刊》采访时,总结说。
国家语料库依据什么来选择语言原材料,它又究竟为我们的时代保存了些什么?改革开放后的语料占50%
“监测语料库是动态的,其基础来自‘现代汉语平衡语料库’,两个语料库的研究重点不一样。”教育部语言文字应用研究所计算语言学研究室主任肖航告诉《了望东方周刊》,奠定我国语料库基本模式的是由国家语言文字工作委员会牵头、上世纪90年代初开始研发、历时十年、反映中国20世纪现代汉语整体发展情况的现代汉语平衡语料库。
世界上第一个标准语料库是1961年建立的美国Brown语料库,随着各国对语言作为一种国家资源的认识的深化,各国政府和学术机构都开始投资建设大型语料库。1980年到1993年,欧美国家建设有超过50个语料库并投入使用。
上世纪90年代初期,随着计算机技术在中国兴起,国家语委于1992年12月提出建设现代汉语语料库项目。
“语言的边界非常大,不断新陈代谢,很难把握它,这样大的整体怎么去调查分析。”肖航介绍说,国家语委最后决定按照国际标准采用小样本抽样的方法来建语料库,“小样本,大样本量,尽可能多地搜集原材料,单一来源则不能太多”。
1992年4月,国家语委召开现代汉语语料库选材原则专家论证会,1993年1月制订出选材原则。“因为要反映中国现代汉语的全貌,在选材上就要注重平衡性原则。抽样要注意文体、时间和地区三个方面的平衡性。”李宇明说。
“在语料的选择上,要有别于专业性、地域性和纯口语性。尽可能提高所选语料在采字、采词和采义等方面的广度。”肖航说。
在语料的选材分类上,专家组亮缓蔽最终定了3大分类:人文与社会科学类、自然科学类和综合类,占比分别是50%、30%和20%,每一大类下又分了若干小类,样本一共分布在37类里。这37类并不是一成不变的,进入21世纪后,信息技术和电子科技的研究成为后起之秀,37种分类也为这些新出现的科目做出调整,自然科学类调整较大,增加了信息技术等方面的分类。
从时间看,语料库将自1919年开始的现代汉语划分为5个阶段:1919~1925年,五四时期的白话文仍留有文言痕迹,这部分样本只占总体的5%;1926年~1949年,白话文逐步脱离文言痕迹,现代汉语逐渐成熟,样本约占15%;1950年~1965年,新中国的成立给社会生活带来巨大变化,新词新语大量涌现,这时期的样本约占25%;1966年~1976年,“文革”时期的许多词语仅作为历史词语存在于现代汉语中,特殊时期的样本量很小,只占5%;语料库大部分的样本量来自1977年以后,改革开放后,现代汉语有了新发展,这一时期的样本量占到总体的50%。
保持样本平衡性
从来源看,语言材料多选用政论性文章、新闻报道、各类文学艺术作品、科普读物、通俗读物、学术专论及各种应用文语体等现代汉语作品。样本容量2000字,上下允许有500字的浮动。书籍的抽样数量一般占全书字数的3%~5%,字数最多不超过10000字;报纸采用整版选用的方式,为了避免重复,不同报纸选用不同月份;刊物所选字数不超过5000字。
对于2000字的样本容量,肖航解释说:“首先是因为同一个来源的样本不要太多的原则,希望样本选材来源更广泛;第二,国际上一般规定采集样本不能超过原材料内容的3%~5%,否则会构成侵犯版权。”
据肖航介绍,文学作品采样采用掐头去尾的方法来保持样本的平衡性,“掐头去尾会破坏文本的流畅性,但字词语法的采样不受影响。文学层面的不通顺跟语料库研究意图不冲突”。
按照选材原则,国家语委将抽样任务下发给北京语言大学、北京师范大学、中国人民大学等高校,从国家图书馆和高校图书馆一共抽取了4万多个样本,而这4万多个样本里,同样一本文学作品可能还有3-5个版本。
“一共找了多少本书可想而知。国际上对语料库的两大要求——大规模和真实性,在现代汉语平衡语料库上体现得十分明显。”肖航说。
在坚持语料分布的平衡性原则上,曾经参与了选材原则专家论证会的国家语委咨询委员会委员、教育部语言文字应用研究所研究员李行健深有体会。
“比如,鲁迅这样一个大家,他的作品是现代汉语,但有很多文言的成分夹杂在里面,比较古奥,因此根据平衡性原则,语料库要有来自鲁迅作品的语料,但不宜过多。”李行健告诉《了望东方周刊》,“诗歌就不能当做一般的语料,因为这种文体太宽泛灵活,如果用诗歌体做样本,会不符合研究现代汉语语法的原则。”
‘捌’ 什么是“语料库语言学
语料库语言学以语料库为手段研究语言 ,是一门独具特色的语言研究学科。语料库是大量可用计算机处理的语料的集合。
‘玖’ 什么是语料库
corpus 语料库
关于语料库的三点基本认识:
语料库中存放的是在语言的实际使用中真实出现过的语言材料;
语料库是以电子计算机为载体承载语渣脊言知识的基础资源;
真实语料需要经过加工(分析和处理),才能成为有用的资源;
什么是第三代语料库?
苑春法,黄昌宁等人在1995年着文谈到"第三代语料库"的问题,并且介绍了美国计算语言学学会倡议的数据采取计划ACL/DCI.认为这一代语料库首先对所有可以得到的语料以文本形式存储起来,它的容量一般为一亿词次以上,21世纪可望达到万亿词次的量级[1].该文实际上已经将下一代语料库的建设提上议事日程.
【第三代语料库的特点】
时代:六,七十年代到八十年代及九十年代以来.
语料:从单语种到多语种.
数量:从百万级到千万级再到亿级和万亿级.
加工:从词法级到句法级再到语义和语用级.
文本:从抽样到全文.
【动态流通语料库】
是历时语料库.是基于大基竖规模真实文本的语料库,是对语言文字的使用进行动态追踪的语料库,是对语言的发展变化进行监测的语料库,是"活"的语料库.
动态语料库有两大特色:
1,语料的动态性:语料是不断动态补充的.
2,语料的流通性:语料又多了一种新的"流通度"属性,这是一种具有量化的属性值的属性.
特点一:动态性
不确定一个固定的库容量(例如:把库容量目标确定为数百万字,上千万字,数千万字,数亿字如锋渗等);
不确定一个固定的选择文本的时间段(例如:确定为49年-82年,80年-90年,90年-95年语料等)
不确定一个固定的文本选择范围或应用领域(例如:确定为只收现代汉语文学语料,或新闻语料,或科技语料或中小学生语料等,从而建立一些专门的语料库);
不确定一些固定的文本抽样对象(例如:《人民日报》,《光明日报》,《人民文学》,《小说选刊》,或者老舍着作,巴金着作,毛泽东着作,邓小平着作等).
是即期抽取的语料库:根据大众媒体的传播情况,依据一定的原则来动态抽取.
是历时的语料库:可以观察和测量到流通度的变化情况,可以追踪到语言成分的产生,成长和消亡.
是动态变化的语料库:大众传播媒体的情况是在不断变化的,语料库也要相应变化.(例如:1978年,我国报纸只有186种,基本上是单一的党委机关报,到1995年底,已经增加到2202种,平均期印数增加4倍,总印张增加3·5倍,报纸的品种,功能,发行都有了相当大的变化如果要科学地反应语言的流通应用情况,语料库的容量,选材,抽样等怎么可能一成不变呢 )
特点二:流通性
1997年全世界期刊发行量最大的前50名的中国期刊(略)
【关于双语或多语语料库的研究】
目前大致可分为三类:
一是研究双语语料的对齐技术(Alignment),国内外学者就此提出多种策略和方法,现在已经出现了许多对齐双语或多语语料的程序或工具[Gale 1993];
二是研究双语语料的各种应用,如在基于统计的机器翻译技术[Brown 1990]、基于实例的机器翻译技术[Nagao 1984],双语词典编纂[Klavans and Tzoukermann 1990]技术中,双语语料库都发挥着十分重要的作用;
三是双语语料库的设计、采集、编码和管理问题。目前比较着名的语料库编码方案有TEI 文本编码标准以及CES标准,两者均基于SGML标记语言。
就前两类研究来说,中国国内目前做了较多的跟踪研究工作,而对于第三类研究,即双语语料库尤其是涉及汉语的双语语料库的建设、编码和管理研究,探索工作似乎做的相对较少。
目前国内最大的语料交换平台是瓦特开元:www.xwatt.com
‘拾’ 自然语言处理——4. 语料库与语言知识库
语料库在语言研究中被广泛使用:语言习得、方言学、语言教学、句法和语义、音系研究等
(1)计算机的迅速发展;
(2)转换生成语言学派对语料库语言学的批判不都正确(如指责计算机分析语料是伪技术),有的是片面的甚至是错误的(如对语料数据价值的否定)。
两种含义:一种是指在同一种语言的语料上的平行,例如,“国际英语语料库”,共有20个平行的子语料库,分别来自以英语为母语或官方语言和主要语言的国家,如英国、美国、加拿大、澳大利亚、新西兰等。其平行性表现为语料选取的时间、对象、比例、文本数、文本长度让散虚等几乎是一致的。建库的目的是对不同国家的英语进行对比研究。
另一种平行语料库是指在两种或多种语言之间的平行采样和加工,例如,机器翻译中的双坦燃语对齐语料库
•加拿大议会会议录(Canadian Hansards) http://www.isi.e/natural-language/download/hansard/
•克姆尼茨英-德翻译语料库(Chemnitz E-G Translation Corpus) http://www.tu-chemnitz.de/phil/english/chairs/linguist/real/independent/transcorpus/index.htm
•英语-挪威语平行语料库(ENPC) https://www.hf.uio.no/ilos/english/services/omc/enpc/
•葡-英双向平行语料库(Compara) http://www.linguateca.pt/COMPARA/Welcome.html
•香港立法委员会会掘岩议记录(Hong Kong Hansards) http://catalog.ldc.upenn.e/LDC2000T50
•香港新闻(Hong Kong News)
•香港法律(Hong Kong Laws)
历时8年,两个阶段:1996年至2000年为第一阶段,主要完成了形态和句法分析层的标注工作,形成了PDT 1.0版;2000年至2004年为第二阶段,主要进行树库的深层语法层(tectogrammaticallayer) 的信息标注,形成PDT 2.0 版。
http://www.chineseldc.org (192. 168. 88. 2)