A. 如何給語料分類,語料分類的原則和標准
語料庫建設中涉及的主要問題包括:
(1)
設計和規劃:主要考慮語料庫的用途、類型、規模、實現手段、質量保證、可擴展性等。
(2)
語料的採集:主要考慮語料獲取、數據格式、字元編碼、語料分類、文本描述,以及各類語料的比例以保持平衡性等。
(3)
語料的加工:包括標注項目(詞語單位、詞性、句法、語義、語體、篇章結構等)標記集、標注規范和加工方式。
(4)
語料管理系統的建設:包括數據維護(語料錄入、校對、存儲、修改、刪除及語料描述信息項目管理)、語料自動加工(分詞、標注、文本分割、合並、標記處理等)、用戶功能(查詢、檢索、統計、列印等)。
(5)
語料庫的應用:針對語言學理論和應用領域中的各種問題,研究和開發處理語料的演算法和工具。
我國語料庫的建設始於80年代,當時的主要目標是漢語詞彙統計研究。進入90年代以後,語料庫方法在自然語言信息處理領域得到了廣泛的應用,建立了各種類型的語料庫,研究的內容涉及語料庫建設中的各個問題。90年代末到新世紀初這幾年是語料庫開發和應用的進一步發展時期,除了語言信息處理和言語工程領域以外,語料庫方法在語言教學、詞典編纂、現代漢語和漢語史研究等方面也得到了越來越多的應用。
語料庫與語言信息處理有著某種天然的聯系。當人們還不了解語料庫方法的時候,在自然語言理解和生成、機器翻譯等研究中,分析語言的主要方法是基於規則的(Rule-based)。對於用規則無法表達或不能涵蓋的語言事實,計算機就很難處理。語料庫出現以後,人們利用它對大規模的自然語言進行調查和統計,建立統計語言模型,研究和應用基於統計的(Statistical-based)語言處理技術,在信息檢索、文本分類、文本過濾、信息抽取等應用方向取得了進展。另一方面,語言信息處理技術的發展也為語料庫的建設提供了支持。從字元編碼、文本輸入和整理,語料的自動分詞和標注,到語料的統計和檢索,自然語言信息處理的研究都為語料的加工提供了關鍵性的技術。
B. 語料庫怎麼用 國家「語料庫」全解析
「國家語委前排的二層小樓簡直就成了軍事基地,誰都不能隨便進入,錄入工作是由解放軍二炮某部完成的。錄入進來的字詞,又人工校對了7遍。」2012年7月25日,國家語言資源監測與研究中心平面媒體分中心、北京語言大學、中國新聞技術工作者聯合會、中國中文信息學會聯合發布「2012年春夏季中國報紙流行語」。「神舟九號」位居綜合類流行語第一,其他進敬州入前十的流行語是:明膠、黃岩島、倫敦奧運會、穆巴拉克、小微企業、歐洲杯、學雷鋒、農業科技和舌尖上的中國。
2005年,教育部語言文字信息管理司和國內一些高校聯合建設了國家語言資源監測與研究中心,上述平面媒體分中心的主要任務是建設平面媒體動態流通語料庫,自2001年開始,每年根據「發行量、發行地域、發行周期、媒體價值、閱讀率哪銀」等因素,選擇15種網路版報紙內容作為語料庫的採集源,目前已形成了近30億字的「國家語言資源監測語料庫」。
利用監測語料庫,國家語言資源監測與研究中心從2005年開始發布中國語言生活狀況報告、年度流行語和年度新詞。
「上述工作就是在網路上搜集上億字的資源,分領域抓文本,看詞語集,做交集,按時間段跟蹤,測算詞語使用頻率並解釋其背後的經濟社會文化背景。」原教育部語言文字應用研究所副所長、國家語委語言文字規范標准測查認證中心主任靳光瑾告訴《瞭望東方周刊》。
「我們這個時代已經進入到語料庫時代,也就是用電子形式保存的真實語言材料將作為對一個時代的記錄而被保存。」北京語言大學黨委書記、原教育部語言文字信息管理司司長李宇明在接受《瞭望東方周刊》采訪時,總結說。
國家語料庫依據什麼來選擇語言原材料,它又究竟為我們的時代保存了些什麼?改革開放後的語料佔50%
「監測語料庫是動態的,其基礎來自『現代漢語平衡語料庫』,兩個語料庫的研究重點不一樣。」教育部語言文字應用研究所計算語言學研究室主任肖航告訴《瞭望東方周刊》,奠定我國語料庫基本模式的是由國家語言文字工作委員會牽頭、上世紀90年代初開始研發、歷時十年、反映中國20世紀現代漢語整體發展情況的現代漢語平衡語料庫。
世界上第一個標准語料庫是1961年建立的美國Brown語料庫,隨著各國對語言作為一種國家資源的認識的深化,各國政府和學術機構都開始投資建設大型語料庫。1980年到1993年,歐美國家建設有超過50個語料庫並投入使用。
上世紀90年代初期,隨著計算機技術在中國興起,國家語委於1992年12月提出建設現代漢語語料庫項目。
「語言的邊界非常大,不斷新陳代謝,很難把握它,這樣大的整體怎麼去調查分析。」肖航介紹說,國家語委最後決定按照國際標准採用小樣本抽樣的方法來建語料庫,「小樣本,大樣本量,盡可能多地搜集原材料,單一來源則不能太多」。
1992年4月,國家語委召開現代漢語語料庫選材原則專家論證會,1993年1月制訂出選材原則。「因為要反映中國現代漢語的全貌,在選材上就要注重平衡性原則。抽樣要注意文體、時間和地區三個方面的平衡性。」李宇明說。
「在語料的選擇上,要有別於專業性、地域性和純口語性。盡可能提高所選語料在采字、采詞和采義等方面的廣度。」肖航說。
在語料的選材分類上,專家組亮緩蔽最終定了3大分類:人文與社會科學類、自然科學類和綜合類,佔比分別是50%、30%和20%,每一大類下又分了若干小類,樣本一共分布在37類里。這37類並不是一成不變的,進入21世紀後,信息技術和電子科技的研究成為後起之秀,37種分類也為這些新出現的科目做出調整,自然科學類調整較大,增加了信息技術等方面的分類。
從時間看,語料庫將自1919年開始的現代漢語劃分為5個階段:1919~1925年,五四時期的白話文仍留有文言痕跡,這部分樣本只佔總體的5%;1926年~1949年,白話文逐步脫離文言痕跡,現代漢語逐漸成熟,樣本約佔15%;1950年~1965年,新中國的成立給社會生活帶來巨大變化,新詞新語大量涌現,這時期的樣本約佔25%;1966年~1976年,「文革」時期的許多詞語僅作為歷史詞語存在於現代漢語中,特殊時期的樣本量很小,只佔5%;語料庫大部分的樣本量來自1977年以後,改革開放後,現代漢語有了新發展,這一時期的樣本量佔到總體的50%。
保持樣本平衡性
從來源看,語言材料多選用政論性文章、新聞報道、各類文學藝術作品、科普讀物、通俗讀物、學術專論及各種應用文語體等現代漢語作品。樣本容量2000字,上下允許有500字的浮動。書籍的抽樣數量一般佔全書字數的3%~5%,字數最多不超過10000字;報紙採用整版選用的方式,為了避免重復,不同報紙選用不同月份;刊物所選字數不超過5000字。
對於2000字的樣本容量,肖航解釋說:「首先是因為同一個來源的樣本不要太多的原則,希望樣本選材來源更廣泛;第二,國際上一般規定採集樣本不能超過原材料內容的3%~5%,否則會構成侵犯版權。」
據肖航介紹,文學作品采樣採用掐頭去尾的方法來保持樣本的平衡性,「掐頭去尾會破壞文本的流暢性,但字詞語法的采樣不受影響。文學層面的不通順跟語料庫研究意圖不沖突」。
按照選材原則,國家語委將抽樣任務下發給北京語言大學、北京師范大學、中國人民大學等高校,從國家圖書館和高校圖書館一共抽取了4萬多個樣本,而這4萬多個樣本里,同樣一本文學作品可能還有3-5個版本。
「一共找了多少本書可想而知。國際上對語料庫的兩大要求——大規模和真實性,在現代漢語平衡語料庫上體現得十分明顯。」肖航說。
在堅持語料分布的平衡性原則上,曾經參與了選材原則專家論證會的國家語委咨詢委員會委員、教育部語言文字應用研究所研究員李行健深有體會。
「比如,魯迅這樣一個大家,他的作品是現代漢語,但有很多文言的成分夾雜在裡面,比較古奧,因此根據平衡性原則,語料庫要有來自魯迅作品的語料,但不宜過多。」李行健告訴《瞭望東方周刊》,「詩歌就不能當做一般的語料,因為這種文體太寬泛靈活,如果用詩歌體做樣本,會不符合研究現代漢語語法的原則。」
C. 請問王路的那本雅思王聽力應該怎麼用
本文由王陸老師微博及講座相關內容整理:聽力語料庫是一本好書,但是裡面內容非常多,對於備考時間不長的烤鴨來說是很重的負擔。實際上,如果大家備考時間在一個月左右(備考時間三周以內的烤鴨不建議用本書),只需要准備本書(2012和2013版)的第3、4、5章即可(2011版是第6、7、9章),具體使用方法如下: 第一步:聽寫。根據自己的備考時間,大家首先大致確定一下自己每天在聽力上的備考時間,然後確定自己每天聽寫的小節數。Star用的是2012版,第3、4、5章一共有24個小節,王陸老師推薦的是每天聽寫5小節,大家可以根據自己的備考時間靈活調節,不過最少不要少於3節,最多也不要多於8節,每天量太多或者太少效果都不好。根據自己的計劃,我們可以開始聽寫了。在不提前看書中內容的情況下,我們把音頻傳入MP3,拿幾張A4白紙(紙張大了用起來比較方便),不按暫停鍵(一定注意!),每小節都要一次性聽寫完畢。特別提醒:大家只聽寫橫向測試的部分就好!備考時間在三個月以上的烤鴨可以考慮練習縱向。 第二步:對答案改錯。對照書中相關章節的內容核對自己的答案是否正確。這里請一定注意,拼寫、單復數、連詞符、空格等如果和原文不符合,都算錯(大小寫可以忽略,因為根據王陸老師的理論,最終考試時候我們要用所有字母全大寫的答案形式,她在考場里用這種方法考出了滿分,所以此方法可行)! 第三步:統計。對完答案後,我們需要拿出一張紙,做一個正確率統計表(要分第一遍、第二遍、第三遍……),將每一節的正確率做一總結,填入表格,這樣以後可以有對比進步。 第四步:總結、強化。拿一個筆記本,將本節出錯的單詞和短語認真謄抄一遍,然後找幾張草稿紙,在上面把每個單詞都強化練習幾遍。Star自己的習慣是寫五遍,一邊寫一邊讀,這樣同時也可以熟悉發音。 第五步:周末復習。按照每天聽寫5小節的進度,從周一開始到周五,我們可以把這三章聽寫並總結一遍。在周末的時候我們可以拿我們總結的錯詞再進行一次強化,每個單詞抄幾遍、讀幾遍。 第六步:重復聽寫。從第二周開始,我們回到第三章第一節重新開始聽寫,但是這次請使用加速軟體(網上有很多加速軟體,windows media player本身也自帶加速功能),加到1.4倍速聽寫,第三周要加到1.6倍速,第四周就不要再加速了,繼續1.6倍速。特別提醒:只有第三、四章可以加速!!!第五章本身是很長的搭配,原速度就能讓人寫到手抽筋,如果繼續加速的話會死人(但是還是請大家謹記:為了達到練習效果,無論多麼痛苦都不要按暫停!!修煉的過程就是要這樣………)。和第一周一樣,每一次聽寫完之後都要按照第二步到第六步的步驟重復,這樣我們的錯誤會越來越少。 根據以上的步驟,我們一個月(四周)可以將語料庫聽寫四遍。請注意:聽寫需要達到95%的正確率才算過關。所以在聽寫的過程中,如果某一小節我們的正確率達到了95%,這一小節在以後就可以不聽寫了。在四周聽寫結束之後,我們把每一小節最後一次聽寫時出現的錯詞進一步強化記憶,在考試前兩三天做劍橋真題模擬實戰演練的同時,花一個小時的時間快速熟悉幾遍,就可以上戰場啦~~