『壹』 語料庫概述
語料庫,一個科學取樣和精心加工的電子文本寶庫,是語言研究的重要工具。它利用計算機輔助,為理論研究和實際應用提供了廣闊天地,如詞典編纂、語言教學和語言學研究。語料庫的種類豐富多樣,根據研究目標和用途,可分為異質(包含各類文本)、同質(集中特定類別)、系統(均衡有序)和專用(專門用途)等不同類型。
根據語種,語料庫分為單語、雙語和多語,而按採集單位,又可分為語篇、語句和短語。雙語和多語語料庫還有平行(如用於機器翻譯和詞典編纂)與比較(用於語言對比)之分。如今,我們已經積累了大量各類語料庫,如葡萄牙語樹庫、中文新聞分類語料庫、路透社訓練語料、OpenSubtitles多語言平行語料等。
特徵上,語料庫的關鍵在於它存儲的是真實語言環境中出現的語言材料,區別於例句庫。它是知識的基礎,但並非知識本身,需要經過分析和處理才能轉化為有價值的研究資源。語料庫的發展歷程從早期的人工收集,歷經計算機時代的第一代、第二代,直到現在的第三代語料庫,不斷進步和發展。
關於語料庫的三點基本認識:語料庫中存放的是在語言的實際使用中真實出現過的語言材料;語料庫是以電子計算機為載體承載語言知識的基礎資源;真實語料需要經過加工(分析和處理),才能成為有用的資源;
『貳』 什麼是「語料庫語言學
語料庫語言學以語料庫為手段研究語言 ,是一門獨具特色的語言研究學科。語料庫是大量可用計算機處理的語料的集合。