『壹』 什麼是「語料庫語言學」
語料庫語言學
語料庫語言學是20世紀80年代才嶄露頭角的一門交叉學科,它研究自然語言文本的採集、存儲、加工和統計分析,目的是憑借大規模語料庫提供的客觀翔實的語言證據來從事語言學研究和指導自然語言信息處理系統的開發。
語料庫顧名思義就是放語言材料的倉庫。現在人們談起語料庫,不言而喻是指存放在計算機里的原始文本或經過加工後帶有語言學信息標注的語料文本。現在世界上已經有了不少規模較大的語料庫,有些是國家級的,有些由大學和詞典出版商聯合建設。另外,由於個人微機的迅猛發展和存貯數據的硬碟造價持續下降,研究者個人也開始建立適合於自己研究的小型語料庫。
語料庫語言學(英文corpuslinguistics)這個術語有兩層主要含義。一是利用語料庫對語言的某個方面進行研究,即「語料庫語言學」不是一個新學科的名稱,而僅僅反映了一個新的研究手段。二是依據語料庫所反映出來的語言事實對現行語言學理論進行批判,提出新的觀點或理論。只有在這個意義上「語料庫語言學」才是一個新學科的名稱。從現有文獻來看,屬於後一類的研究還是極個別的。所以,嚴格地說,現在不能把語料庫語言學跟語言學的分支,如社會語言學、心理語言學、語用學等相提並論。
近年來,隨著我國經濟的發展,科研經費的增加,漢語語料庫的建設得到了開展。1999年我院把建立漢語語料庫列為院重大課題。目前語言所正在構建三個大規模的語料庫:現場即席話語語料庫,主要方言口語庫和現代漢語文本語料庫。在世界范圍內,我國的語料庫建設在規模上還趕不上歐洲的一些發達國家,特別是英國。然而,在語料庫語言學的研究上,以及語料庫的實際運用上,我國已經進入世界前沿的行列。
20世紀語言研究的總特點可以用四個字概括———高度抽象。最近幾十年來,語言研究的高度抽象傾向已經失去主導地位。這主要緣於兩個方面的因素:一是計算機技術,特別是基於計算機處理的多媒體技術的飛氏團升速發展;二是社會語言學殲老、語用學、會話分析、人類語言學、計算語言學、人機對話研究、語音識別與合成等研究取得令人矚目的成就。先前難以抓住並進行有效處理的五花八門的實際語料,現在可以對其進行大規模地的、自動的或人機配合的處理。比如個人發音特徵,先前認為這跟語言學毫無關系,現在成了偵破語音學的重要內容。偵破語音學家首先建立個人發音特徵語料庫,這個語料庫可以用來鑒別嫌疑犯。概言之,當今的語言研究由先前的高度抽象逐步走向最具體的語言的實際活動,其中包括神經元的運動。比如神經語言學就是要揭開人類大腦神經是如何處理語言這個秘密的學科。
語料庫和語料庫語言學在當今語或兄言研究由高度抽象轉向語言的實際使用這個過渡中起著十分重要的作用:一是提供真實語料;二是提供統計數據;三是驗證現行的理論;四是構建新的理論。這些可以說是語料庫和語料庫語言學的實用價值。提供真實語料可以說是詞典編纂的生命線。現在流行的英語詞典幾乎全部是基於大規模語料庫編纂而成的。基於大規模語料庫的英語語法書也已經問世。通過大規模語料庫建立統計模型成為語言信息處理和加工的主流模式。先前基於規則的機器翻譯、語音合成與識別、文語轉換等如沒有大規模語料庫的數據支持,要取得好成果是不可能的。在理論建設上,基於英國國家語料庫英語口語庫的研究表明,基於真實英語口語語料的英語口語語法跟基於書面語的語法大不相同,甚至可以誇張地說,是不同的語法。
在歐洲,語料庫語言學已經成為語言學的主流分支。相信在注重語言實際的我國,語料庫語言學也將受到越來越多的研究者的重視,取得豐碩的成果。
參考資料:中國社會科學院院報
『貳』 語料庫的概述
名詞(corpus,復數corpora)
指經科學取樣和加工的大規模電子文本庫。藉助計算機分析工具,研究者可開展相關的語言理論及應用研究。
corpus
n. (pl. corpora)
refers to a large collection of well-sampled and processed electronic texts, on which language studies, theoretical or applied, can be concted with the aid of computer tools.
語料庫是語料庫語言學研究的基礎資源,也是經驗主義語言研究方法的主要資源。應用於詞典編纂,語言教學,傳統語言研究,自然語言處理中基於統計或實例的研究等方面。 語料庫有多種類型,確定類型的主要依據是它的研究目的和用途,這一點往往能夠體現在語料採集的原則和方式上。有人曾經把語料庫分成四種類型:⑴異質的(Heterogeneous):沒有特定的語料收集原則,廣泛收集並原樣存儲各種語料;⑵同質的(Homogeneous):只收集同一類內容的語料;⑶系統的(Systematic):根據預先確定的原則和比例收集語料,使語料具有平衡性和系統性,能夠代表某一范圍內的語言事實;⑷專用的(Specialized):只收集用於某一特定用途的語料。
除此之外,按照語料的語種,語料庫也可以分成單語的(Monolingual)、雙語的(Bilingual)和多語的(Multilingual)。按照語料的採集單位,語料庫又可以分為語篇的、語句的、短語的。雙語和多語語料庫按照語料的組織形式,還可以分為平行(對齊)語料庫和比較語料庫,前者的語料構成譯文關系,多用於機器翻譯、雙語詞典編撰等應用領域,後者將表述同樣內容的不同語言文本收集到一起,多用於語言對比研究。已經累積了大量各種類型的語料庫,如:葡萄牙語種樹庫、面向文本分類研究的中英文新聞分類語料庫、路透社文本分類訓練語料庫、中文文本分類語料庫、大開放字幕庫OpenSubtitles的多語言平行語料數據(OpenSubtitles Corpus)、《聖經》雙語語料庫(Bible bilingual corpus)、Short messages service(SMS) corpus(短消息服務(SMS)語料)等。 語料庫有三點特徵
⒈語料庫中存放的是在語言的實際使用中真實出現過的語言材料,因此例句庫通常不應算作語料庫;
⒉語料庫是承載語言知識的基礎資源,但並不等於語言知識;
⒊真實語料需要經過加工(分析和處理),才能成為有用的資源。
語料庫的發展經歷了前期(計算機發明以前),第一代語料庫,第二代語料庫,到第三代語料庫
『叄』 語料庫怎麼用
問題一:怎樣利用語料庫 僅一個文本肯定是不夠的,要有很多文本,而為了保證文本的真實性(不能自己憑空捏造),所以做科學研究的時候慎敏蔽就需要建立在語料庫的基礎上,所以說是基於語料庫的研究。比如,我研究一個作家的語言風格,我就要建立在他創作出來的文本之上;我要研究漢語的一些語言現象,一般就要建立在平衡語料庫之上,研究其他語言同樣。語料庫一般都會有人創建的,不需要自己做。
問題二:王陸語料庫怎麼使用?書寫的好簡單啊 只是看起來簡拿者單,很多的單詞是看起來認識,聽起來就不知道是什麼了。樓上說的方法是對的,但是正確率不是90%以上,而是95%以上。
問題三:怎麼用語料庫分類 python 把自己的語料庫(sogou文本分類語料庫)放在LTK_DATA/corpora/目錄下;
然後在命令行輸入以下之後,即可看到所有的txt文件名列表了。
問題四:怎樣利用語料庫 CORPUS4U是語料庫的大家庭,很好的學習地方。北外的許家金、中科院艾海洋、新加坡國立大學洪華清等高手雲集,好好學吧。
問題五:有誰知道北大ccl語料庫怎麼使用 使用網頁版(雙擊就可以進入了):CCL語料庫檢索系統(網路版)
檢索結果是可以直接下載的,在檢索結果的左邊有下載的按鈕,如果需要下載超過500條(默認)的檢索結果,可以修改這個數字。
如果需要下載整個CCL語料庫,現在改版後的版本比較難了,以前的很容易。
問題六:怎麼是使用北京語言大學的語料庫啊? 有很多同行、高手幫你解決問題,互動性很強。好像不連接到北大中文語料庫,也不能查找。主要是同行間的互相交流,也會提供很多語料庫相關資源。
好像伺服器在香港,有時不好上。
問題七:王陸的聽力語料庫是什麼,該怎麼用? 沒什麼用,把不會的背一背吧。我根本沒聽過那本書的mp3,聽力還是8.5
問題八:bnc語料庫怎麼使用 如題,希望答主詳細說明這兩個語料庫的正確使用方法。
以及,除此之外,還有哪些對學習翻譯和翻譯實際應用來說比較方便的語料庫呢?
非常感謝。寬州如題,希望答主詳細說明這兩個語料庫的正確使用方法。
以及,除此之外,還有哪些對學習翻譯和翻譯實際應用來說比較方便的語料庫呢?
非常感謝。
『肆』 什麼是語料庫
語料庫中存放的是在語言的實際州孫使用中真實出現過的語言材料。
『伍』 如何給語料分類,語料分類的原則和標准
語料庫建設中涉及的主要問題包括:
(1)
設計和規劃:主要考慮語料庫的用途、類型、規模、實現手段、質量保證、可擴展性等。
(2)
語料的採集:主要考慮語料獲取、數據格式、字元編碼、語料分類、文本描述,以及各類語料的比例以保持平衡性等。
(3)
語料的加工:包括標注項目(詞語單位、詞性、句法、語義、語體、篇章結構等)標記集、標注規范和加工方式。
(4)
語料管理系統的建設:包括數據維護(語料錄入、校對、存儲、修改、刪除及語料描述信息項目管理)、語料自動加工(分詞、標注、文本分割、合並、標記處理等)、用戶功能(查詢、檢索、統計、列印等)。
(5)
語料庫的應用:針對語言學理論和應用領域中的各種問題,研究和開發處理語料的演算法和工具。
我國語料庫的建設始於80年代,當時的主要目標是漢語詞彙統計研究。進入90年代以後,語料庫方法在自然語言信息處理領域得到了廣泛的應用,建立了各種類型的語料庫,研究的內容涉及語料庫建設中的各個問題。90年代末到新世紀初這幾年是語料庫開發和應用的進一步發展時期,除了語言信息處理和言語工程領域以外,語料庫方法在語言教學、詞典編纂、現代漢語和漢語史研究等方面也得到了越來越多的應用。
語料庫與語言信息處理有著某種天然的聯系。當人們還不了解語料庫方法的時候,在自然語言理解和生成、機器翻譯等研究中,分析語言的主要方法是基於規則的(Rule-based)。對於用規則無法表達或不能涵蓋的語言事實,計算機就很難處理。語料庫出現以後,人們利用它對大規模的自然語言進行調查和統計,建立統計語言模型,研究和應用基於統計的(Statistical-based)語言處理技術,在信息檢索、文本分類、文本過濾、信息抽取等應用方向取得了進展。另一方面,語言信息處理技術的發展也為語料庫的建設提供了支持。從字元編碼、文本輸入和整理,語料的自動分詞和標注,到語料的統計和檢索,自然語言信息處理的研究都為語料的加工提供了關鍵性的技術。
『陸』 語料庫中怎麼計算一個單詞每千字大小
輸入字元(A1/B1)*1000。根據查詢語料脊賀庫相關信息得知,輸入字元(A1/B1)*1000計算一個單詞每千字大小。語料庫是以電子計算機櫻轎派為載體承載語言知識帆臘的基礎資源。
『柒』 語料庫怎麼用 國家「語料庫」全解析
「國家語委前排的二層小樓簡直就成了軍事基地,誰都不能隨便進入,錄入工作是由解放軍二炮某部完成的。錄入進來的字詞,又人工校對了7遍。」2012年7月25日,國家語言資源監測與研究中心平面媒體分中心、北京語言大學、中國新聞技術工作者聯合會、中國中文信息學會聯合發布「2012年春夏季中國報紙流行語」。「神舟九號」位居綜合類流行語第一,其他進敬州入前十的流行語是:明膠、黃岩島、倫敦奧運會、穆巴拉克、小微企業、歐洲杯、學雷鋒、農業科技和舌尖上的中國。
2005年,教育部語言文字信息管理司和國內一些高校聯合建設了國家語言資源監測與研究中心,上述平面媒體分中心的主要任務是建設平面媒體動態流通語料庫,自2001年開始,每年根據「發行量、發行地域、發行周期、媒體價值、閱讀率哪銀」等因素,選擇15種網路版報紙內容作為語料庫的採集源,目前已形成了近30億字的「國家語言資源監測語料庫」。
利用監測語料庫,國家語言資源監測與研究中心從2005年開始發布中國語言生活狀況報告、年度流行語和年度新詞。
「上述工作就是在網路上搜集上億字的資源,分領域抓文本,看詞語集,做交集,按時間段跟蹤,測算詞語使用頻率並解釋其背後的經濟社會文化背景。」原教育部語言文字應用研究所副所長、國家語委語言文字規范標准測查認證中心主任靳光瑾告訴《瞭望東方周刊》。
「我們這個時代已經進入到語料庫時代,也就是用電子形式保存的真實語言材料將作為對一個時代的記錄而被保存。」北京語言大學黨委書記、原教育部語言文字信息管理司司長李宇明在接受《瞭望東方周刊》采訪時,總結說。
國家語料庫依據什麼來選擇語言原材料,它又究竟為我們的時代保存了些什麼?改革開放後的語料佔50%
「監測語料庫是動態的,其基礎來自『現代漢語平衡語料庫』,兩個語料庫的研究重點不一樣。」教育部語言文字應用研究所計算語言學研究室主任肖航告訴《瞭望東方周刊》,奠定我國語料庫基本模式的是由國家語言文字工作委員會牽頭、上世紀90年代初開始研發、歷時十年、反映中國20世紀現代漢語整體發展情況的現代漢語平衡語料庫。
世界上第一個標准語料庫是1961年建立的美國Brown語料庫,隨著各國對語言作為一種國家資源的認識的深化,各國政府和學術機構都開始投資建設大型語料庫。1980年到1993年,歐美國家建設有超過50個語料庫並投入使用。
上世紀90年代初期,隨著計算機技術在中國興起,國家語委於1992年12月提出建設現代漢語語料庫項目。
「語言的邊界非常大,不斷新陳代謝,很難把握它,這樣大的整體怎麼去調查分析。」肖航介紹說,國家語委最後決定按照國際標准採用小樣本抽樣的方法來建語料庫,「小樣本,大樣本量,盡可能多地搜集原材料,單一來源則不能太多」。
1992年4月,國家語委召開現代漢語語料庫選材原則專家論證會,1993年1月制訂出選材原則。「因為要反映中國現代漢語的全貌,在選材上就要注重平衡性原則。抽樣要注意文體、時間和地區三個方面的平衡性。」李宇明說。
「在語料的選擇上,要有別於專業性、地域性和純口語性。盡可能提高所選語料在采字、采詞和采義等方面的廣度。」肖航說。
在語料的選材分類上,專家組亮緩蔽最終定了3大分類:人文與社會科學類、自然科學類和綜合類,佔比分別是50%、30%和20%,每一大類下又分了若干小類,樣本一共分布在37類里。這37類並不是一成不變的,進入21世紀後,信息技術和電子科技的研究成為後起之秀,37種分類也為這些新出現的科目做出調整,自然科學類調整較大,增加了信息技術等方面的分類。
從時間看,語料庫將自1919年開始的現代漢語劃分為5個階段:1919~1925年,五四時期的白話文仍留有文言痕跡,這部分樣本只佔總體的5%;1926年~1949年,白話文逐步脫離文言痕跡,現代漢語逐漸成熟,樣本約佔15%;1950年~1965年,新中國的成立給社會生活帶來巨大變化,新詞新語大量涌現,這時期的樣本約佔25%;1966年~1976年,「文革」時期的許多詞語僅作為歷史詞語存在於現代漢語中,特殊時期的樣本量很小,只佔5%;語料庫大部分的樣本量來自1977年以後,改革開放後,現代漢語有了新發展,這一時期的樣本量佔到總體的50%。
保持樣本平衡性
從來源看,語言材料多選用政論性文章、新聞報道、各類文學藝術作品、科普讀物、通俗讀物、學術專論及各種應用文語體等現代漢語作品。樣本容量2000字,上下允許有500字的浮動。書籍的抽樣數量一般佔全書字數的3%~5%,字數最多不超過10000字;報紙採用整版選用的方式,為了避免重復,不同報紙選用不同月份;刊物所選字數不超過5000字。
對於2000字的樣本容量,肖航解釋說:「首先是因為同一個來源的樣本不要太多的原則,希望樣本選材來源更廣泛;第二,國際上一般規定採集樣本不能超過原材料內容的3%~5%,否則會構成侵犯版權。」
據肖航介紹,文學作品采樣採用掐頭去尾的方法來保持樣本的平衡性,「掐頭去尾會破壞文本的流暢性,但字詞語法的采樣不受影響。文學層面的不通順跟語料庫研究意圖不沖突」。
按照選材原則,國家語委將抽樣任務下發給北京語言大學、北京師范大學、中國人民大學等高校,從國家圖書館和高校圖書館一共抽取了4萬多個樣本,而這4萬多個樣本里,同樣一本文學作品可能還有3-5個版本。
「一共找了多少本書可想而知。國際上對語料庫的兩大要求——大規模和真實性,在現代漢語平衡語料庫上體現得十分明顯。」肖航說。
在堅持語料分布的平衡性原則上,曾經參與了選材原則專家論證會的國家語委咨詢委員會委員、教育部語言文字應用研究所研究員李行健深有體會。
「比如,魯迅這樣一個大家,他的作品是現代漢語,但有很多文言的成分夾雜在裡面,比較古奧,因此根據平衡性原則,語料庫要有來自魯迅作品的語料,但不宜過多。」李行健告訴《瞭望東方周刊》,「詩歌就不能當做一般的語料,因為這種文體太寬泛靈活,如果用詩歌體做樣本,會不符合研究現代漢語語法的原則。」
『捌』 什麼是「語料庫語言學
語料庫語言學以語料庫為手段研究語言 ,是一門獨具特色的語言研究學科。語料庫是大量可用計算機處理的語料的集合。
『玖』 什麼是語料庫
corpus 語料庫
關於語料庫的三點基本認識:
語料庫中存放的是在語言的實際使用中真實出現過的語言材料;
語料庫是以電子計算機為載體承載語渣脊言知識的基礎資源;
真實語料需要經過加工(分析和處理),才能成為有用的資源;
什麼是第三代語料庫?
苑春法,黃昌寧等人在1995年著文談到"第三代語料庫"的問題,並且介紹了美國計算語言學學會倡議的數據採取計劃ACL/DCI.認為這一代語料庫首先對所有可以得到的語料以文本形式存儲起來,它的容量一般為一億詞次以上,21世紀可望達到萬億詞次的量級[1].該文實際上已經將下一代語料庫的建設提上議事日程.
【第三代語料庫的特點】
時代:六,七十年代到八十年代及九十年代以來.
語料:從單語種到多語種.
數量:從百萬級到千萬級再到億級和萬億級.
加工:從詞法級到句法級再到語義和語用級.
文本:從抽樣到全文.
【動態流通語料庫】
是歷時語料庫.是基於大基豎規模真實文本的語料庫,是對語言文字的使用進行動態追蹤的語料庫,是對語言的發展變化進行監測的語料庫,是"活"的語料庫.
動態語料庫有兩大特色:
1,語料的動態性:語料是不斷動態補充的.
2,語料的流通性:語料又多了一種新的"流通度"屬性,這是一種具有量化的屬性值的屬性.
特點一:動態性
不確定一個固定的庫容量(例如:把庫容量目標確定為數百萬字,上千萬字,數千萬字,數億字如鋒滲等);
不確定一個固定的選擇文本的時間段(例如:確定為49年-82年,80年-90年,90年-95年語料等)
不確定一個固定的文本選擇范圍或應用領域(例如:確定為只收現代漢語文學語料,或新聞語料,或科技語料或中小學生語料等,從而建立一些專門的語料庫);
不確定一些固定的文本抽樣對象(例如:《人民日報》,《光明日報》,《人民文學》,《小說選刊》,或者老舍著作,巴金著作,毛澤東著作,鄧小平著作等).
是即期抽取的語料庫:根據大眾媒體的傳播情況,依據一定的原則來動態抽取.
是歷時的語料庫:可以觀察和測量到流通度的變化情況,可以追蹤到語言成分的產生,成長和消亡.
是動態變化的語料庫:大眾傳播媒體的情況是在不斷變化的,語料庫也要相應變化.(例如:1978年,我國報紙只有186種,基本上是單一的黨委機關報,到1995年底,已經增加到2202種,平均期印數增加4倍,總印張增加3·5倍,報紙的品種,功能,發行都有了相當大的變化如果要科學地反應語言的流通應用情況,語料庫的容量,選材,抽樣等怎麼可能一成不變呢 )
特點二:流通性
1997年全世界期刊發行量最大的前50名的中國期刊(略)
【關於雙語或多語語料庫的研究】
目前大致可分為三類:
一是研究雙語語料的對齊技術(Alignment),國內外學者就此提出多種策略和方法,現在已經出現了許多對齊雙語或多語語料的程序或工具[Gale 1993];
二是研究雙語語料的各種應用,如在基於統計的機器翻譯技術[Brown 1990]、基於實例的機器翻譯技術[Nagao 1984],雙語詞典編纂[Klavans and Tzoukermann 1990]技術中,雙語語料庫都發揮著十分重要的作用;
三是雙語語料庫的設計、採集、編碼和管理問題。目前比較著名的語料庫編碼方案有TEI 文本編碼標准以及CES標准,兩者均基於SGML標記語言。
就前兩類研究來說,中國國內目前做了較多的跟蹤研究工作,而對於第三類研究,即雙語語料庫尤其是涉及漢語的雙語語料庫的建設、編碼和管理研究,探索工作似乎做的相對較少。
目前國內最大的語料交換平台是瓦特開元:www.xwatt.com
『拾』 自然語言處理——4. 語料庫與語言知識庫
語料庫在語言研究中被廣泛使用:語言習得、方言學、語言教學、句法和語義、音系研究等
(1)計算機的迅速發展;
(2)轉換生成語言學派對語料庫語言學的批判不都正確(如指責計算機分析語料是偽技術),有的是片面的甚至是錯誤的(如對語料數據價值的否定)。
兩種含義:一種是指在同一種語言的語料上的平行,例如,「國際英語語料庫」,共有20個平行的子語料庫,分別來自以英語為母語或官方語言和主要語言的國家,如英國、美國、加拿大、澳大利亞、紐西蘭等。其平行性表現為語料選取的時間、對象、比例、文本數、文本長度讓散虛等幾乎是一致的。建庫的目的是對不同國家的英語進行對比研究。
另一種平行語料庫是指在兩種或多種語言之間的平行采樣和加工,例如,機器翻譯中的雙坦燃語對齊語料庫
•加拿大議會會議錄(Canadian Hansards) http://www.isi.e/natural-language/download/hansard/
•克姆尼茨英-德翻譯語料庫(Chemnitz E-G Translation Corpus) http://www.tu-chemnitz.de/phil/english/chairs/linguist/real/independent/transcorpus/index.htm
•英語-挪威語平行語料庫(ENPC) https://www.hf.uio.no/ilos/english/services/omc/enpc/
•葡-英雙向平行語料庫(Compara) http://www.linguateca.pt/COMPARA/Welcome.html
•香港立法委員會會掘岩議記錄(Hong Kong Hansards) http://catalog.ldc.upenn.e/LDC2000T50
•香港新聞(Hong Kong News)
•香港法律(Hong Kong Laws)
歷時8年,兩個階段:1996年至2000年為第一階段,主要完成了形態和句法分析層的標注工作,形成了PDT 1.0版;2000年至2004年為第二階段,主要進行樹庫的深層語法層(tectogrammaticallayer) 的信息標注,形成PDT 2.0 版。
http://www.chineseldc.org (192. 168. 88. 2)