Ⅰ 常見的信息收集方法有哪些
參考:http://ke..com/link?url=-SMKCtVkwb_MUKEJGDLIZnDj_#7
調查法
調查方法一般分為普查和抽樣調查兩大類。普查是調查有限總體中每個個體的有關指標值。抽樣調查是按照一定的科學原理和方法,從事物的總體中抽取部分稱為樣本(Sample)的個體進行調查,用所得到的調查數據推斷總體。抽樣調查是較常用的調查方法,也是統計學研究的主要內容。
抽樣調查的關鍵是樣本抽樣方法、樣本量大小的確定等。樣本抽樣方法,又稱抽樣組織的方式,決定樣本集合的選擇方式,直接影響信息收集的質量。抽樣方法一般分為非隨機抽樣、隨機抽樣和綜合抽樣。
對於個體的調查,若是涉及人,則主要採用兩種調查方式:訪問調查法和問卷調查法。
訪問調查法,又叫采訪法,是通過訪問信息收集對象,與之直接交談而獲得有關信息的方法。它又分為座談采訪、會議采訪以及電話采訪和信函采訪等方式。采訪需要作好充分准備,認真選擇調查對象,了解調查對象,收集有關業務資料和相關的背景資料。其主要優點是可以就問題進行深入的討論,獲得高質量的信息;缺點是費用高,采訪對象不可能很多,因此受訪問者要具有代表性。它對采訪者的語言交際素質要求較高。
信息收集
問卷調查法是一種包含統計調查和定量分析的信息收集方法。這種方法主要考慮的問題是:所收集信息的內容範圍和數量,所選定的調查對象的代表性和數量,問卷的精心設計,問卷的回收率控制等。具有調查面廣、費用低的特點,但對調查對象無法控制,問卷回收率一般都不高,回答的質量也較差,受訪者的態度具有決定性影響。
觀察法
觀察法是通過開會、深入現場、參加生產和經營、實地采樣、進行現場觀察並准確記錄(包括測繪、錄音、錄相、拍照、筆錄等)調研情況。主要包括兩個方面:一是對人的行為的觀察,二是對客觀事物的觀察。觀察法應用很廣泛,常和詢問法、搜集實物結合使用,以提高所收集信息的可靠性。
實驗方法
實驗方法能通過實驗過程獲取其他手段難以獲得的信息或結論。實驗者通過主動控制實驗條件,包括對參與者類型的恰當限定、對信息產生條件的恰當限定和對信息產生過程的合理設計,可以獲得在真實狀況下用調查法或觀察法無法獲得的某些重要的、能客觀反映事物運動表徵的有效信息,還可以在一定程度上直接觀察研究某些參量之間的相互關系,有利於對事物本質的研究。
實驗方法也有多種形式,如實驗室實驗、現場實驗、計算機模擬實驗、計算機網路環境下人機結合實驗等。現代管理科學中新興的管理實驗,現代經濟學中正在形成的實驗經濟學中的經濟實驗,實質上就是通過實驗獲取與管理或經濟相關的信息。
文獻檢索
文獻檢索就是從浩繁的文獻中檢索出所需的信息的過程。文獻檢索分為手工檢索和計算機檢索。
手工檢索主要是通過信息服務部門收集和建立的文獻目錄、索引、文摘、參考指南和文獻綜述等來查找有關的文獻信息。計算機文獻檢索,是文獻檢索的計算機實現,其特點是檢索速度快、信息量大,是當前收集文獻信息的主要方法。
文獻檢索過程一般包括三個階段:①分析研究課題和制定檢索策略;②利用檢索工具查找文獻線索;③根據文獻出處索取原始文獻。
文獻根據加工深度的不同可分為四個級別:零次文獻、一次文獻、二次文獻和三次文獻。所獲取的相應信息分別是零次信息、一次信息、二次信息和三次信息。
(1)零次文獻是指未經出版社發行的或未進入社會交流的最原始的文獻,如私人筆記、考察筆記等,內容新穎,但不成熟,不公開交流,難以獲得。
(2)一次文獻是以作者本人取得的成果為依據而創作的論文、報告等經公開發表或出版的各種文獻,如期刊論文、科技報告等。其特點是內容新穎豐富、敘述詳盡以及參考價值大,但數量龐大而且分散。
(3)二次文獻是指報道和查找一次文獻的檢索工具書刊,如各種目錄、題錄、文摘和索引等。二次文獻是按照特定目的對一定范圍和學科領域內的一次文獻進行鑒別、篩選、分析、歸納和加工整理等,使之有序化後出版的。其主要功能是檢索、控制一次文獻,幫助人們較快地獲取所需的信息,具有匯集性、工具性、綜合性和交流性等特點。
(4)三次文獻是根據二次文獻提供的線索,選用大量的一次文獻的內容,經過篩選、分析、綜合和濃縮而再度出版的文獻,包括專題評述、年鑒、網路全書、詞典、導讀與文獻服務目錄、工具書目錄等。
網路信息收集
網路信息是指通過計算機網路發布、傳遞和存儲的各種信息。收集網路信息的最終目標是給廣大用戶提供網路信息資源服務,整個過程經過網路信息搜索、整合、保存和服務四個步驟,
網路信息搜索是基於網路信息收集系統自動完成的。網路信息搜索系統首先按照用戶指定的信息需求或主題,調用各種搜索引擎進行網頁搜索和數據挖掘,將搜索的信息經過濾等處理過程剔除無關信息,從而完成網路信息資源的「收集」;然後通過計算機自動搜索、重排等處理過程,剔除重復信息,再根據不同類別或主題自動進行信息的分類,從而完成網路信息的「整合」;分類整合後的網路信息採用元數據方案進行索引編目,並採用數據壓縮及數據傳輸技術實現本地化的海量數據存儲,從而完成網路信息的「保存」,當然要通過網路及時更新;經過索引編目組織的網路信息正式發布後,即可通過檢索為讀者提供網路信息資源的「服務」。
Ⅱ ccl語料庫的檢索方法
咨詢記錄 · 回答於2021-12-11
Ⅲ 英譯漢語料語庫在哪裡找
1、Tmxmall語料商城上有用戶已上傳的各類雙語語料庫,你需要英漢財經新聞語料庫,按語言對和類別檢索,或者直接搜索關鍵詞即可。
3、自己去各大貼吧和翻譯網站找資源,看看有哪位大牛分享。不過這個看運氣了,一般專業語料庫資源都是有「版權」的。
4、搜集英漢雙語語料,然後自己建庫吧。
Ⅳ 搜集資料的方法有哪些
去圖書館借閱讀書去收集資料。
在網上查找有關資料。
在書報上收集有關資料。
或問一問家人,一些驚天動地的事。
希望對你有幫助⋯⋯
Ⅳ 如何建立自己的語料庫
基本上沒有辦法建立相應的語料庫,優質的原語料是優質語料庫的前提。
動態變化的語料庫:大眾傳播媒體的情況是在不斷變化的,語料庫也要相應變化.(例如:1978年,中國報紙只有186種,基本上是單一的黨委機關報,到1995年底,已經增加到2202種,平均期印數增加4倍,總印張增加3·5倍,報紙的品種,功能,發行都有了相當大的變化如果要科學地反應語言的流通應用情況,語料庫的容量,選材,抽樣等怎麼可能一成不變呢)。
(5)搜集語料的方法叫什麼擴展閱讀:
語料庫的分類:
1、是研究雙語語料的對齊技術(Alignment),國內外學者就此提出多種策略和方法,已經出現了許多對齊雙語或多語語料的程序或工具[Gale 1993];
2、是研究雙語語料的各種應用,如在基於統計的機器翻譯技術[Brown 1990]、基於實例的機器翻譯技術[Nagao 1984],雙語詞典編纂[Klavans and Tzoukermann 1990]技術中,雙語語料庫都發揮著十分重要的作用;
3、是雙語語料庫的設計、採集、編碼和管理問題。比較著名的語料庫編碼方案有TEI 文本編碼標准以及CES標准,兩者均基於SGML標記語言研究
指不只有一種語言的語料庫。分為平行語料庫和對照語料庫兩種。平行語料庫指庫中的兩種或多種文本互相是對方的譯文,因此可以用於翻譯或者機器翻譯研究;對照語料庫中兩種或多種語言的文本不構成對譯關系,只是領域相同,主題相近。通常只能用於兩種或多種語言的對比。
Ⅵ 什麼是語料庫
語料庫中存放的是在語言的實際使用中真實出現過的語言材料。
Ⅶ 如何給語料分類,語料分類的原則和標准
語料庫建設中涉及的主要問題包括:
(1)
設計和規劃:主要考慮語料庫的用途、類型、規模、實現手段、質量保證、可擴展性等。
(2)
語料的採集:主要考慮語料獲取、數據格式、字元編碼、語料分類、文本描述,以及各類語料的比例以保持平衡性等。
(3)
語料的加工:包括標注項目(詞語單位、詞性、句法、語義、語體、篇章結構等)標記集、標注規范和加工方式。
(4)
語料管理系統的建設:包括數據維護(語料錄入、校對、存儲、修改、刪除及語料描述信息項目管理)、語料自動加工(分詞、標注、文本分割、合並、標記處理等)、用戶功能(查詢、檢索、統計、列印等)。
(5)
語料庫的應用:針對語言學理論和應用領域中的各種問題,研究和開發處理語料的演算法和工具。
我國語料庫的建設始於80年代,當時的主要目標是漢語詞彙統計研究。進入90年代以後,語料庫方法在自然語言信息處理領域得到了廣泛的應用,建立了各種類型的語料庫,研究的內容涉及語料庫建設中的各個問題。90年代末到新世紀初這幾年是語料庫開發和應用的進一步發展時期,除了語言信息處理和言語工程領域以外,語料庫方法在語言教學、詞典編纂、現代漢語和漢語史研究等方面也得到了越來越多的應用。
語料庫與語言信息處理有著某種天然的聯系。當人們還不了解語料庫方法的時候,在自然語言理解和生成、機器翻譯等研究中,分析語言的主要方法是基於規則的(Rule-based)。對於用規則無法表達或不能涵蓋的語言事實,計算機就很難處理。語料庫出現以後,人們利用它對大規模的自然語言進行調查和統計,建立統計語言模型,研究和應用基於統計的(Statistical-based)語言處理技術,在信息檢索、文本分類、文本過濾、信息抽取等應用方向取得了進展。另一方面,語言信息處理技術的發展也為語料庫的建設提供了支持。從字元編碼、文本輸入和整理,語料的自動分詞和標注,到語料的統計和檢索,自然語言信息處理的研究都為語料的加工提供了關鍵性的技術。
Ⅷ 語料往往是語言類論文寫作不可或缺的資料,而語料的獲取方法
只要方法得當,問題就不難解決。
只有找到正確的方法,問題才能解決。
Ⅸ 什麼是語料庫
關於語料庫的三點基本認識:語料庫中存放的是在語言的實際使用中真實出現過的語言材料;語料庫是以電子計算機為載體承載語言知識的基礎資源;真實語料需要經過加工(分析和處理),才能成為有用的資源;
定義
語料庫
名詞(corpus,復數corpora)
指經科學取樣和加工的大規模電子文本庫。藉助計算機分析工具,研究者可開展相關的語言理論及應用研究。
corpus
n. (pl. corpora)
refers to a large collection of well-sampled and processed electronictexts, on which language studies, theoretical or applied, can be concted withthe aid of computer tools.
語料庫是語料庫語言學研究的基礎資源,也是經驗主義語言研究方法的主要資源。應用於詞典編纂,語言教學,傳統語言研究,自然語言處理中基於統計或實例的研究等方面。
分類
語料庫有多種類型,確定類型的主要依據是它的研究目的和用途,這一點往往能夠體現在語料採集的原則和方式上。有人曾經把語料庫分成四種類型:⑴異質的(Heterogeneous):沒有特定的語料收集原則,廣泛收集並原樣存儲各種語料;⑵同質的(Homogeneous):只收集同一類內容的語料;⑶系統的(Systematic):根據預先確定的原則和比例收集語料,使語料具有平衡性和系統性,能夠代表某一范圍內的語言事實;⑷專用的(Specialized):只收集用於某一特定用途的語料。
除此之外,按照語料的語種,語料庫也可以分成單語的(Monolingual)、雙語的(Bilingual)和多語的(Multilingual)。按照語料的採集單位,語料庫又可以分為語篇的、語句的、短語的。雙語和多語語料庫按照語料的組織形式,還可以分為平行(對齊)語料庫和比較語料庫,前者的語料構成譯文關系,多用於機器翻譯、雙語詞典編撰等應用領域,後者將表述同樣內容的不同語言文本收集到一起,多用於語言對比研究。已經累積了大量各種類型的語料庫,如:葡萄牙語種樹庫、面向文本分類研究的中英文新聞分類語料庫、路透社文本分類訓練語料庫、中文文本分類語料庫、大開放字幕庫OpenSubtitles的多語言平行語料數據(OpenSubtitles Corpus)、《聖經》雙語語料庫("Bible" bilingual corpus)、Short messages service(SMS) corpus(短消息服務(SMS)語料)等。
特徵
語料庫有三點特徵
⒈語料庫中存放的是在語言的實際使用中真實出現過的語言材料,因此例句庫通常不應算作語料庫;
⒉語料庫是承載語言知識的基礎資源,但並不等於語言知識;
⒊真實語料需要經過加工(分析和處理),才能成為有用的資源。
語料庫的發展經歷了前期(計算機發明以前),第一代語料庫,第二代語料庫,到第三代語料庫