Ⅰ 常见的信息收集方法有哪些
参考:http://ke..com/link?url=-SMKCtVkwb_MUKEJGDLIZnDj_#7
调查法
调查方法一般分为普查和抽样调查两大类。普查是调查有限总体中每个个体的有关指标值。抽样调查是按照一定的科学原理和方法,从事物的总体中抽取部分称为样本(Sample)的个体进行调查,用所得到的调查数据推断总体。抽样调查是较常用的调查方法,也是统计学研究的主要内容。
抽样调查的关键是样本抽样方法、样本量大小的确定等。样本抽样方法,又称抽样组织的方式,决定样本集合的选择方式,直接影响信息收集的质量。抽样方法一般分为非随机抽样、随机抽样和综合抽样。
对于个体的调查,若是涉及人,则主要采用两种调查方式:访问调查法和问卷调查法。
访问调查法,又叫采访法,是通过访问信息收集对象,与之直接交谈而获得有关信息的方法。它又分为座谈采访、会议采访以及电话采访和信函采访等方式。采访需要作好充分准备,认真选择调查对象,了解调查对象,收集有关业务资料和相关的背景资料。其主要优点是可以就问题进行深入的讨论,获得高质量的信息;缺点是费用高,采访对象不可能很多,因此受访问者要具有代表性。它对采访者的语言交际素质要求较高。
信息收集
问卷调查法是一种包含统计调查和定量分析的信息收集方法。这种方法主要考虑的问题是:所收集信息的内容范围和数量,所选定的调查对象的代表性和数量,问卷的精心设计,问卷的回收率控制等。具有调查面广、费用低的特点,但对调查对象无法控制,问卷回收率一般都不高,回答的质量也较差,受访者的态度具有决定性影响。
观察法
观察法是通过开会、深入现场、参加生产和经营、实地采样、进行现场观察并准确记录(包括测绘、录音、录相、拍照、笔录等)调研情况。主要包括两个方面:一是对人的行为的观察,二是对客观事物的观察。观察法应用很广泛,常和询问法、搜集实物结合使用,以提高所收集信息的可靠性。
实验方法
实验方法能通过实验过程获取其他手段难以获得的信息或结论。实验者通过主动控制实验条件,包括对参与者类型的恰当限定、对信息产生条件的恰当限定和对信息产生过程的合理设计,可以获得在真实状况下用调查法或观察法无法获得的某些重要的、能客观反映事物运动表征的有效信息,还可以在一定程度上直接观察研究某些参量之间的相互关系,有利于对事物本质的研究。
实验方法也有多种形式,如实验室实验、现场实验、计算机模拟实验、计算机网络环境下人机结合实验等。现代管理科学中新兴的管理实验,现代经济学中正在形成的实验经济学中的经济实验,实质上就是通过实验获取与管理或经济相关的信息。
文献检索
文献检索就是从浩繁的文献中检索出所需的信息的过程。文献检索分为手工检索和计算机检索。
手工检索主要是通过信息服务部门收集和建立的文献目录、索引、文摘、参考指南和文献综述等来查找有关的文献信息。计算机文献检索,是文献检索的计算机实现,其特点是检索速度快、信息量大,是当前收集文献信息的主要方法。
文献检索过程一般包括三个阶段:①分析研究课题和制定检索策略;②利用检索工具查找文献线索;③根据文献出处索取原始文献。
文献根据加工深度的不同可分为四个级别:零次文献、一次文献、二次文献和三次文献。所获取的相应信息分别是零次信息、一次信息、二次信息和三次信息。
(1)零次文献是指未经出版社发行的或未进入社会交流的最原始的文献,如私人笔记、考察笔记等,内容新颖,但不成熟,不公开交流,难以获得。
(2)一次文献是以作者本人取得的成果为依据而创作的论文、报告等经公开发表或出版的各种文献,如期刊论文、科技报告等。其特点是内容新颖丰富、叙述详尽以及参考价值大,但数量庞大而且分散。
(3)二次文献是指报道和查找一次文献的检索工具书刊,如各种目录、题录、文摘和索引等。二次文献是按照特定目的对一定范围和学科领域内的一次文献进行鉴别、筛选、分析、归纳和加工整理等,使之有序化后出版的。其主要功能是检索、控制一次文献,帮助人们较快地获取所需的信息,具有汇集性、工具性、综合性和交流性等特点。
(4)三次文献是根据二次文献提供的线索,选用大量的一次文献的内容,经过筛选、分析、综合和浓缩而再度出版的文献,包括专题评述、年鉴、网络全书、词典、导读与文献服务目录、工具书目录等。
网络信息收集
网络信息是指通过计算机网络发布、传递和存储的各种信息。收集网络信息的最终目标是给广大用户提供网络信息资源服务,整个过程经过网络信息搜索、整合、保存和服务四个步骤,
网络信息搜索是基于网络信息收集系统自动完成的。网络信息搜索系统首先按照用户指定的信息需求或主题,调用各种搜索引擎进行网页搜索和数据挖掘,将搜索的信息经过滤等处理过程剔除无关信息,从而完成网络信息资源的“收集”;然后通过计算机自动搜索、重排等处理过程,剔除重复信息,再根据不同类别或主题自动进行信息的分类,从而完成网络信息的“整合”;分类整合后的网络信息采用元数据方案进行索引编目,并采用数据压缩及数据传输技术实现本地化的海量数据存储,从而完成网络信息的“保存”,当然要通过网络及时更新;经过索引编目组织的网络信息正式发布后,即可通过检索为读者提供网络信息资源的“服务”。
Ⅱ ccl语料库的检索方法
咨询记录 · 回答于2021-12-11
Ⅲ 英译汉语料语库在哪里找
1、Tmxmall语料商城上有用户已上传的各类双语语料库,你需要英汉财经新闻语料库,按语言对和类别检索,或者直接搜索关键词即可。
3、自己去各大贴吧和翻译网站找资源,看看有哪位大牛分享。不过这个看运气了,一般专业语料库资源都是有“版权”的。
4、搜集英汉双语语料,然后自己建库吧。
Ⅳ 搜集资料的方法有哪些
去图书馆借阅读书去收集资料。
在网上查找有关资料。
在书报上收集有关资料。
或问一问家人,一些惊天动地的事。
希望对你有帮助⋯⋯
Ⅳ 如何建立自己的语料库
基本上没有办法建立相应的语料库,优质的原语料是优质语料库的前提。
动态变化的语料库:大众传播媒体的情况是在不断变化的,语料库也要相应变化.(例如:1978年,中国报纸只有186种,基本上是单一的党委机关报,到1995年底,已经增加到2202种,平均期印数增加4倍,总印张增加3·5倍,报纸的品种,功能,发行都有了相当大的变化如果要科学地反应语言的流通应用情况,语料库的容量,选材,抽样等怎么可能一成不变呢)。
(5)搜集语料的方法叫什么扩展阅读:
语料库的分类:
1、是研究双语语料的对齐技术(Alignment),国内外学者就此提出多种策略和方法,已经出现了许多对齐双语或多语语料的程序或工具[Gale 1993];
2、是研究双语语料的各种应用,如在基于统计的机器翻译技术[Brown 1990]、基于实例的机器翻译技术[Nagao 1984],双语词典编纂[Klavans and Tzoukermann 1990]技术中,双语语料库都发挥着十分重要的作用;
3、是双语语料库的设计、采集、编码和管理问题。比较着名的语料库编码方案有TEI 文本编码标准以及CES标准,两者均基于SGML标记语言研究
指不只有一种语言的语料库。分为平行语料库和对照语料库两种。平行语料库指库中的两种或多种文本互相是对方的译文,因此可以用于翻译或者机器翻译研究;对照语料库中两种或多种语言的文本不构成对译关系,只是领域相同,主题相近。通常只能用于两种或多种语言的对比。
Ⅵ 什么是语料库
语料库中存放的是在语言的实际使用中真实出现过的语言材料。
Ⅶ 如何给语料分类,语料分类的原则和标准
语料库建设中涉及的主要问题包括:
(1)
设计和规划:主要考虑语料库的用途、类型、规模、实现手段、质量保证、可扩展性等。
(2)
语料的采集:主要考虑语料获取、数据格式、字符编码、语料分类、文本描述,以及各类语料的比例以保持平衡性等。
(3)
语料的加工:包括标注项目(词语单位、词性、句法、语义、语体、篇章结构等)标记集、标注规范和加工方式。
(4)
语料管理系统的建设:包括数据维护(语料录入、校对、存储、修改、删除及语料描述信息项目管理)、语料自动加工(分词、标注、文本分割、合并、标记处理等)、用户功能(查询、检索、统计、打印等)。
(5)
语料库的应用:针对语言学理论和应用领域中的各种问题,研究和开发处理语料的算法和工具。
我国语料库的建设始于80年代,当时的主要目标是汉语词汇统计研究。进入90年代以后,语料库方法在自然语言信息处理领域得到了广泛的应用,建立了各种类型的语料库,研究的内容涉及语料库建设中的各个问题。90年代末到新世纪初这几年是语料库开发和应用的进一步发展时期,除了语言信息处理和言语工程领域以外,语料库方法在语言教学、词典编纂、现代汉语和汉语史研究等方面也得到了越来越多的应用。
语料库与语言信息处理有着某种天然的联系。当人们还不了解语料库方法的时候,在自然语言理解和生成、机器翻译等研究中,分析语言的主要方法是基于规则的(Rule-based)。对于用规则无法表达或不能涵盖的语言事实,计算机就很难处理。语料库出现以后,人们利用它对大规模的自然语言进行调查和统计,建立统计语言模型,研究和应用基于统计的(Statistical-based)语言处理技术,在信息检索、文本分类、文本过滤、信息抽取等应用方向取得了进展。另一方面,语言信息处理技术的发展也为语料库的建设提供了支持。从字符编码、文本输入和整理,语料的自动分词和标注,到语料的统计和检索,自然语言信息处理的研究都为语料的加工提供了关键性的技术。
Ⅷ 语料往往是语言类论文写作不可或缺的资料,而语料的获取方法
只要方法得当,问题就不难解决。
只有找到正确的方法,问题才能解决。
Ⅸ 什么是语料库
关于语料库的三点基本认识:语料库中存放的是在语言的实际使用中真实出现过的语言材料;语料库是以电子计算机为载体承载语言知识的基础资源;真实语料需要经过加工(分析和处理),才能成为有用的资源;
定义
语料库
名词(corpus,复数corpora)
指经科学取样和加工的大规模电子文本库。借助计算机分析工具,研究者可开展相关的语言理论及应用研究。
corpus
n. (pl. corpora)
refers to a large collection of well-sampled and processed electronictexts, on which language studies, theoretical or applied, can be concted withthe aid of computer tools.
语料库是语料库语言学研究的基础资源,也是经验主义语言研究方法的主要资源。应用于词典编纂,语言教学,传统语言研究,自然语言处理中基于统计或实例的研究等方面。
分类
语料库有多种类型,确定类型的主要依据是它的研究目的和用途,这一点往往能够体现在语料采集的原则和方式上。有人曾经把语料库分成四种类型:⑴异质的(Heterogeneous):没有特定的语料收集原则,广泛收集并原样存储各种语料;⑵同质的(Homogeneous):只收集同一类内容的语料;⑶系统的(Systematic):根据预先确定的原则和比例收集语料,使语料具有平衡性和系统性,能够代表某一范围内的语言事实;⑷专用的(Specialized):只收集用于某一特定用途的语料。
除此之外,按照语料的语种,语料库也可以分成单语的(Monolingual)、双语的(Bilingual)和多语的(Multilingual)。按照语料的采集单位,语料库又可以分为语篇的、语句的、短语的。双语和多语语料库按照语料的组织形式,还可以分为平行(对齐)语料库和比较语料库,前者的语料构成译文关系,多用于机器翻译、双语词典编撰等应用领域,后者将表述同样内容的不同语言文本收集到一起,多用于语言对比研究。已经累积了大量各种类型的语料库,如:葡萄牙语种树库、面向文本分类研究的中英文新闻分类语料库、路透社文本分类训练语料库、中文文本分类语料库、大开放字幕库OpenSubtitles的多语言平行语料数据(OpenSubtitles Corpus)、《圣经》双语语料库("Bible" bilingual corpus)、Short messages service(SMS) corpus(短消息服务(SMS)语料)等。
特征
语料库有三点特征
⒈语料库中存放的是在语言的实际使用中真实出现过的语言材料,因此例句库通常不应算作语料库;
⒉语料库是承载语言知识的基础资源,但并不等于语言知识;
⒊真实语料需要经过加工(分析和处理),才能成为有用的资源。
语料库的发展经历了前期(计算机发明以前),第一代语料库,第二代语料库,到第三代语料库