A. 如何给语料分类,语料分类的原则和标准
语料库建设中涉及的主要问题包括:
(1)
设计和规划:主要考虑语料库的用途、类型、规模、实现手段、质量保证、可扩展性等。
(2)
语料的采集:主要考虑语料获取、数据格式、字符编码、语料分类、文本描述,以及各类语料的比例以保持平衡性等。
(3)
语料的加工:包括标注项目(词语单位、词性、句法、语义、语体、篇章结构等)标记集、标注规范和加工方式。
(4)
语料管理系统的建设:包括数据维护(语料录入、校对、存储、修改、删除及语料描述信息项目管理)、语料自动加工(分词、标注、文本分割、合并、标记处理等)、用户功能(查询、检索、统计、打印等)。
(5)
语料库的应用:针对语言学理论和应用领域中的各种问题,研究和开发处理语料的算法和工具。
我国语料库的建设始于80年代,当时的主要目标是汉语词汇统计研究。进入90年代以后,语料库方法在自然语言信息处理领域得到了广泛的应用,建立了各种类型的语料库,研究的内容涉及语料库建设中的各个问题。90年代末到新世纪初这几年是语料库开发和应用的进一步发展时期,除了语言信息处理和言语工程领域以外,语料库方法在语言教学、词典编纂、现代汉语和汉语史研究等方面也得到了越来越多的应用。
语料库与语言信息处理有着某种天然的联系。当人们还不了解语料库方法的时候,在自然语言理解和生成、机器翻译等研究中,分析语言的主要方法是基于规则的(Rule-based)。对于用规则无法表达或不能涵盖的语言事实,计算机就很难处理。语料库出现以后,人们利用它对大规模的自然语言进行调查和统计,建立统计语言模型,研究和应用基于统计的(Statistical-based)语言处理技术,在信息检索、文本分类、文本过滤、信息抽取等应用方向取得了进展。另一方面,语言信息处理技术的发展也为语料库的建设提供了支持。从字符编码、文本输入和整理,语料的自动分词和标注,到语料的统计和检索,自然语言信息处理的研究都为语料的加工提供了关键性的技术。
B. 语料库怎么用 国家“语料库”全解析
“国家语委前排的二层小楼简直就成了军事基地,谁都不能随便进入,录入工作是由解放军二炮某部完成的。录入进来的字词,又人工校对了7遍。”2012年7月25日,国家语言资源监测与研究中心平面媒体分中心、北京语言大学、中国新闻技术工作者联合会、中国中文信息学会联合发布“2012年春夏季中国报纸流行语”。“神舟九号”位居综合类流行语第一,其他进敬州入前十的流行语是:明胶、黄岩岛、伦敦奥运会、穆巴拉克、小微企业、欧洲杯、学雷锋、农业科技和舌尖上的中国。
2005年,教育部语言文字信息管理司和国内一些高校联合建设了国家语言资源监测与研究中心,上述平面媒体分中心的主要任务是建设平面媒体动态流通语料库,自2001年开始,每年根据“发行量、发行地域、发行周期、媒体价值、阅读率哪银”等因素,选择15种网络版报纸内容作为语料库的采集源,目前已形成了近30亿字的“国家语言资源监测语料库”。
利用监测语料库,国家语言资源监测与研究中心从2005年开始发布中国语言生活状况报告、年度流行语和年度新词。
“上述工作就是在网络上搜集上亿字的资源,分领域抓文本,看词语集,做交集,按时间段跟踪,测算词语使用频率并解释其背后的经济社会文化背景。”原教育部语言文字应用研究所副所长、国家语委语言文字规范标准测查认证中心主任靳光瑾告诉《了望东方周刊》。
“我们这个时代已经进入到语料库时代,也就是用电子形式保存的真实语言材料将作为对一个时代的记录而被保存。”北京语言大学党委书记、原教育部语言文字信息管理司司长李宇明在接受《了望东方周刊》采访时,总结说。
国家语料库依据什么来选择语言原材料,它又究竟为我们的时代保存了些什么?改革开放后的语料占50%
“监测语料库是动态的,其基础来自‘现代汉语平衡语料库’,两个语料库的研究重点不一样。”教育部语言文字应用研究所计算语言学研究室主任肖航告诉《了望东方周刊》,奠定我国语料库基本模式的是由国家语言文字工作委员会牵头、上世纪90年代初开始研发、历时十年、反映中国20世纪现代汉语整体发展情况的现代汉语平衡语料库。
世界上第一个标准语料库是1961年建立的美国Brown语料库,随着各国对语言作为一种国家资源的认识的深化,各国政府和学术机构都开始投资建设大型语料库。1980年到1993年,欧美国家建设有超过50个语料库并投入使用。
上世纪90年代初期,随着计算机技术在中国兴起,国家语委于1992年12月提出建设现代汉语语料库项目。
“语言的边界非常大,不断新陈代谢,很难把握它,这样大的整体怎么去调查分析。”肖航介绍说,国家语委最后决定按照国际标准采用小样本抽样的方法来建语料库,“小样本,大样本量,尽可能多地搜集原材料,单一来源则不能太多”。
1992年4月,国家语委召开现代汉语语料库选材原则专家论证会,1993年1月制订出选材原则。“因为要反映中国现代汉语的全貌,在选材上就要注重平衡性原则。抽样要注意文体、时间和地区三个方面的平衡性。”李宇明说。
“在语料的选择上,要有别于专业性、地域性和纯口语性。尽可能提高所选语料在采字、采词和采义等方面的广度。”肖航说。
在语料的选材分类上,专家组亮缓蔽最终定了3大分类:人文与社会科学类、自然科学类和综合类,占比分别是50%、30%和20%,每一大类下又分了若干小类,样本一共分布在37类里。这37类并不是一成不变的,进入21世纪后,信息技术和电子科技的研究成为后起之秀,37种分类也为这些新出现的科目做出调整,自然科学类调整较大,增加了信息技术等方面的分类。
从时间看,语料库将自1919年开始的现代汉语划分为5个阶段:1919~1925年,五四时期的白话文仍留有文言痕迹,这部分样本只占总体的5%;1926年~1949年,白话文逐步脱离文言痕迹,现代汉语逐渐成熟,样本约占15%;1950年~1965年,新中国的成立给社会生活带来巨大变化,新词新语大量涌现,这时期的样本约占25%;1966年~1976年,“文革”时期的许多词语仅作为历史词语存在于现代汉语中,特殊时期的样本量很小,只占5%;语料库大部分的样本量来自1977年以后,改革开放后,现代汉语有了新发展,这一时期的样本量占到总体的50%。
保持样本平衡性
从来源看,语言材料多选用政论性文章、新闻报道、各类文学艺术作品、科普读物、通俗读物、学术专论及各种应用文语体等现代汉语作品。样本容量2000字,上下允许有500字的浮动。书籍的抽样数量一般占全书字数的3%~5%,字数最多不超过10000字;报纸采用整版选用的方式,为了避免重复,不同报纸选用不同月份;刊物所选字数不超过5000字。
对于2000字的样本容量,肖航解释说:“首先是因为同一个来源的样本不要太多的原则,希望样本选材来源更广泛;第二,国际上一般规定采集样本不能超过原材料内容的3%~5%,否则会构成侵犯版权。”
据肖航介绍,文学作品采样采用掐头去尾的方法来保持样本的平衡性,“掐头去尾会破坏文本的流畅性,但字词语法的采样不受影响。文学层面的不通顺跟语料库研究意图不冲突”。
按照选材原则,国家语委将抽样任务下发给北京语言大学、北京师范大学、中国人民大学等高校,从国家图书馆和高校图书馆一共抽取了4万多个样本,而这4万多个样本里,同样一本文学作品可能还有3-5个版本。
“一共找了多少本书可想而知。国际上对语料库的两大要求——大规模和真实性,在现代汉语平衡语料库上体现得十分明显。”肖航说。
在坚持语料分布的平衡性原则上,曾经参与了选材原则专家论证会的国家语委咨询委员会委员、教育部语言文字应用研究所研究员李行健深有体会。
“比如,鲁迅这样一个大家,他的作品是现代汉语,但有很多文言的成分夹杂在里面,比较古奥,因此根据平衡性原则,语料库要有来自鲁迅作品的语料,但不宜过多。”李行健告诉《了望东方周刊》,“诗歌就不能当做一般的语料,因为这种文体太宽泛灵活,如果用诗歌体做样本,会不符合研究现代汉语语法的原则。”
C. 请问王路的那本雅思王听力应该怎么用
本文由王陆老师微博及讲座相关内容整理:听力语料库是一本好书,但是里面内容非常多,对于备考时间不长的烤鸭来说是很重的负担。实际上,如果大家备考时间在一个月左右(备考时间三周以内的烤鸭不建议用本书),只需要准备本书(2012和2013版)的第3、4、5章即可(2011版是第6、7、9章),具体使用方法如下: 第一步:听写。根据自己的备考时间,大家首先大致确定一下自己每天在听力上的备考时间,然后确定自己每天听写的小节数。Star用的是2012版,第3、4、5章一共有24个小节,王陆老师推荐的是每天听写5小节,大家可以根据自己的备考时间灵活调节,不过最少不要少于3节,最多也不要多于8节,每天量太多或者太少效果都不好。根据自己的计划,我们可以开始听写了。在不提前看书中内容的情况下,我们把音频传入MP3,拿几张A4白纸(纸张大了用起来比较方便),不按暂停键(一定注意!),每小节都要一次性听写完毕。特别提醒:大家只听写横向测试的部分就好!备考时间在三个月以上的烤鸭可以考虑练习纵向。 第二步:对答案改错。对照书中相关章节的内容核对自己的答案是否正确。这里请一定注意,拼写、单复数、连词符、空格等如果和原文不符合,都算错(大小写可以忽略,因为根据王陆老师的理论,最终考试时候我们要用所有字母全大写的答案形式,她在考场里用这种方法考出了满分,所以此方法可行)! 第三步:统计。对完答案后,我们需要拿出一张纸,做一个正确率统计表(要分第一遍、第二遍、第三遍……),将每一节的正确率做一总结,填入表格,这样以后可以有对比进步。 第四步:总结、强化。拿一个笔记本,将本节出错的单词和短语认真誊抄一遍,然后找几张草稿纸,在上面把每个单词都强化练习几遍。Star自己的习惯是写五遍,一边写一边读,这样同时也可以熟悉发音。 第五步:周末复习。按照每天听写5小节的进度,从周一开始到周五,我们可以把这三章听写并总结一遍。在周末的时候我们可以拿我们总结的错词再进行一次强化,每个单词抄几遍、读几遍。 第六步:重复听写。从第二周开始,我们回到第三章第一节重新开始听写,但是这次请使用加速软件(网上有很多加速软件,windows media player本身也自带加速功能),加到1.4倍速听写,第三周要加到1.6倍速,第四周就不要再加速了,继续1.6倍速。特别提醒:只有第三、四章可以加速!!!第五章本身是很长的搭配,原速度就能让人写到手抽筋,如果继续加速的话会死人(但是还是请大家谨记:为了达到练习效果,无论多么痛苦都不要按暂停!!修炼的过程就是要这样………)。和第一周一样,每一次听写完之后都要按照第二步到第六步的步骤重复,这样我们的错误会越来越少。 根据以上的步骤,我们一个月(四周)可以将语料库听写四遍。请注意:听写需要达到95%的正确率才算过关。所以在听写的过程中,如果某一小节我们的正确率达到了95%,这一小节在以后就可以不听写了。在四周听写结束之后,我们把每一小节最后一次听写时出现的错词进一步强化记忆,在考试前两三天做剑桥真题模拟实战演练的同时,花一个小时的时间快速熟悉几遍,就可以上战场啦~~