❶ 如何将电脑中的文件进行分类管理,如何分类
1、首先将需要分类管理的文件放入文件夹中,可以新建一个文件夹进行存放。
❷ 如何对文档进行多种分类
全能文档管理系统 V7.5 http://www.ote.com/soft/6304.html
本软件用于对常用格式的电子文档进行分类、全文检索和利用,支持的格式包括pdf、html、word、powerpoint、excel、文本以及图片、音频、视频等。
分类:从文件夹导入文档时,可以保持文件夹的结构,也可以建立新的分类文件夹;可以将一个或多个文档拖放到某个文件夹进行归类;文件夹可查找,也可从文档反向定位到文件夹。
检索:可以选择任意几个文件夹作为检索范围;支持文档属性的组合检索和内容的全文检索,支持当前文档内查找;文档一律展示为原始格式,并包含完美的命中词高亮显示和跳转功能。
其他:设置口令保护、自定义收藏夹、排序、打开到原文件位置、打印和保存、绿色软件任意拷贝或移动即可执行。
文管王文档管理系统 V4.51 http://www.ote.com/soft/3189.html
File Security Manager V1.7.3.6
http://download.zol.com.cn/detail/11/105812.shtml
文档管理专家:
http://www.tingtaoz.com/Fr547/B30043/
❸ 面对多重属性和类型的文件要如何分类,举例说明:某文件,既属于书籍类,又属于电子文档类。
提供给你几个关于处理文件的小技巧:
不要保存不必要的文件。不要养成保存收件箱里所有东西的坏习惯。花一点时间浏览一下内容,只有了解到它跟你的工作有关时再保存。电脑里保存太多零碎文件将来找的时候会很不方便;而且它们还会影响电脑的运行速度。---所以保存文件之前先筛选一下。
给你的文件和文件夹统一命名。例如:可以将文件夹分成“财务”、“工程”和“资料”三个子文件夹。在前面标上简写的名字用于区别它们隶属于不同的文件夹。还有,我们可以为不同的文件夹设置不同的外观使他们变得更容易区分。
把有关的文件存在一起,而不去管他们的格式。举个例子:把与同一个项目有关的word文档、ppt、spreadsheet和图表放在一个文件夹里。而不是一个文件夹装所有的ppt,另一个装所有的文档等等。这样,找某个特定项目的各种附件将更加快捷。
把在做的项目和已经完成的项目分开来。有些人偏向于把当前未完成的项目保存在桌面上。等项目做完了,再移到合适的地方去分类存放,然后再定期的(例如每周或者每两周)把那些不再需要的文件也按类别放到已完成文件夹里。
不要让文件夹里装得太满。如果一个文件夹里装太多文件或者子文件夹,多到整个屏幕都显示不下,还要滚动鼠标滚轮才能看完全部条目---这时就应该把这个满满的文件夹分成几个小一点的子文件夹,列一个按修改时间顺序或者字母表顺序的清单,这样便于今后提取。比如:你可以把一个叫“工程项目”的文件夹分成“BP2005”、“BP2006“和“BP2007”等子文件夹。
同样假设你的一个同事叫“某某”,你就可以按他的姓名分成“某某”或者“某某的文件”,这样的方式使子文件夹显得有条理,而不是一堆文件清单堆在一起。
说到这里,还有一个需要注意的小要点,如果子文件夹的文件少于五个的话,那你去点开层层的文件夹找到所需的文件可能节省不了多少时间。
记得备份你的文件归档系统。再强调一遍:这个听起来有点枯燥,但是很重要。所有坏过硬盘的人都可以证明!首先保证给计算机定期做备份,再给文档信息包括联系人都做备份。按行动先后次序整理利用这些更深入的方法定制你的文件归档系统。这有助于你分清工作优先级,提高效率。
按日期整理文件。把文件夹按日期命名。这样可以帮你在不点开文件夹的情况下确定那个文件是最近的,例如:一个文件夹命名为2012.1.1表明这个指导文件是2012年1月1号的。
如果你的文件是几个人共同管理的,你必须特别注意一下版本问题:如果把别人的版本弄混了或者弄丢了会很烦人
把版本号放在文件名一起的同时,还要把版本列表放在文件中表明版本号、版本日期、修改者,还有,如果有的话,修改类型也要标注。
使用记事本文件。把记事本文件当成目录,也就是所谓的“文件夹方案”,是很多人用的一种独特的文件整理方式。建立12个文件夹(每个月一个)另加31个子文件夹(一天一个)。把每天要完成的工作放在相应的文件夹里。这样在每天开始的时候,打开那天所对应的文件夹,把文件全部放到桌面上或者放到一个文件夹中。然后把空的文件夹移到下个月对应的位置。如果你又是一天不能完成当天的工作,那就把它放到明天对应的文件夹中。这个系统可以帮助你整理记录每天的任务,也可以作日记本用,查找时候可以先看记事本再针对性的去找。
对于任何一个高效方便的文件归档系统来说,适合你是最重要的。在某种程度上它取决于你工作的性质。所以,没有一个万能的方法去做归档,你也可以根据这些小建议定制出一套适合自己的系统。
要点:
你是否经常因为在成堆的零碎文件里找资料而浪费很多时间?当面对压力时,你能不能很快找到你要的信息?花费宝贵的时间找东西实在是让工作变得很无趣,也会给你带来很多压力。这些简单的关于文件归档整理的技巧可以教会你如何整理信息并保存它们。
把它变成你生活的一部分:
我们知道这个很枯燥,但是你知道你必须这样做!
抽出一个小时时间,建立起一套适合你的文件归档系统吧!
❹ 文档如何分类
根据制定标准的部门和标准适用程度的不同,标准可以分为国际标准、国际性区域标准、国家标准、行业标准、地方标准、企业标准。国际标准由国际标准化组织(ISO)制定,供全世界统一使用。国家标准由国家标准局统一按GB××××—××的编号方式发布,在全国范围内有效。地方标准由地方标准主管部门按DB××××—××××××的编号方式发布,在当地有效。
❺ 怎样进行文档分类
按照部门分类:行政管理、人力资源管理、销售、售后服务(或者市场)、生产、财务等。在每个大的分类里在进行分类如人力资源:合同、社保、员工档案、考勤、奖励;生产:计划、设备维修、设备图纸、库存产品、(这一项也可以放在财务档案里)。
❻ 简述文书档案最常见的几种分类方法
赵琦(黑龙江省总工会,黑龙江 哈尔滨 150000)
摘要:文书档案是社会发展的主要记录载体,从古至今,人们对档案工作一直都非常重视。在社会不断发展中,文书档案管理方法不断完善,这也意味着文书档案的管理不断细分,因此在文书档案管理中需要对档案进行严格分类,以此提高文书档案工作效率。本文阐述了文书档案工作中最常见的三类分类方法,主要分为:年度分类法、组织机构分类法和问题分类法。
关键词:文书档案;分类方法;年度分类法;组织机构;问题分类法
文书档案是记载了社会发展中各种现实事物发生的整体过程,通过对历史客观记录来衡量某一时期领导人供给,同时是反应某一时期各个基层、部门建设和科技成果开发的主要措施。伴随着社会发展中,人们对文书档案认识的不断增加,文书档案分类是与档案整体工作的基本出发点和根本目的,是保持文件之间历史联系发生各种矛盾的过程中能够充分的考虑和保管,利用相应的方便来实现档案管理效率。在文书档案工作中,分类是通过将文件按照不同的形式和形成机关等因素分开,避免出现不同机关文件的混杂,造成档案管理工作的混乱。
1 年度分类法
就是根据形成和处理文件的年度,是通过将全宗内的所有文书档案按照时间为标准进行逐步区分,通过形成年限逐次排开。运用年度分类法,要求根据文件的准确日期将文书档案进行归纳,并且注明其形成的实践,这是确保分类质量和效率的关键,同时也是在当前实际工作中能够合理完善档案分类工作的有效措施,其在分类的过程中需要注意一下几个方面:
一是在实际社会活动中,不仅有通用的公历年度,其中也有一些特殊行业和部门是按照工作性质和工作特点的需要来对档案在应用中采用过去农历方式进行编制的,这就造成档案在分类中容易混淆的问题,因此在分类的过程中需要对这种情况严加分析,避免出现文档分类的混乱。
二是某些文件上有几种日期,如起草日期、签署日期、批准日期、会议通过日期、发布日期和收文日期等,这些日期有时还不属于同一年度。在这种情况下,要根据文件的具体情况确定一个最能说明文件时间特点的日期。通常的做法是:内部文件和一般发文以文件的写成日期为根据;来往文件中收文以收到日期为根据;法律、法令和条例等法规文件以批准日期或公布、生效日期为根据;指示、命令等指令性文件以文件签署日期即落款日期为根据;计划、总结、预算、决算、统计报表等以内容所针对的时限为根据;跨年度处理的专门案卷、来往文书等可放入关系最密切的年度或最后结案的年度。
期刊文章分类查询,尽在期刊图书馆 三是一些文件由于某种原因没有标注或找不到日期,对此需要根据文件的具体情况,采取适宜的办法考证和判定文件的准确或近似的日期,并将其妥善归类。在文书档案的管理工作中,对分类要求日益增加。文书档案在管理中一般都是通过以每份文件为一件,文件正本与定稿为一件,正文与附件为一件,元件与复制件为一件,转发文件与被转发文件。
四是在年度分类的过程中一般都是通过将一份文件结合实践特征来进行整理,这是通过成文时间、签发时间、批复时间、通过实践和公布时间等,不过在目前的分类管理中一般应用醉倒的是文件的签发时间。以文件签发时间来判定文件的所属年度是当前对各个单位和企业进行总结的主要方法,同时也是按照新方法取消其中内容的主要手段。
2 组织机构分类法
就是根据文书处理阶段形成和处理文件的承办单位进行分类。它以立档单位内部的组织机构为标准,按不同的机构分别设置类目。
采用组织机构分类方法应具备一定的条件:第一,立档单位每年设立的内部组织机构应当基本稳定。内部组织机构经常调整变化的立档单位,不宜采用这种方法。第二,立档单位设立的各个内部组织机构应当能够反映该单位的职能分工情况,并且每个组织机构具有较稳定的基本工作任务或职责,其工作活动的内容及过程应同该机构承担的相关职能保持一致。第三,立档单位的文件上应有各组织机构在形成及承办文件时留下的标记,如收文章、发文号等。
组织机构分类法的类别设置,一般是以立档单位内第一层组织机构分类,需要时也可以分到第二层组织机构,往往有一个机构就设一个类。如果一个单位的机构包括办公室、人事部、财会部、组织部、宣传部等,采用组织机构分类法就可将档案分为办公室类、人事部类、财会部类、组织部类、宣传部类等。各类的排列次序一般按习惯或正式文件的规定,把领导机构、综合机构排在前面。
3 问题分类法
就是按照文件内容所反映的问题或“事由”将文书档案划分成各个类别。它以文件的内容为标准,按文件所涉及的问题(事由)分类。如一个全宗内的档案可以按人事、计划、生产、销售等类别分类,销售类内的档案还可以按广告宣传、推销、运输、售后服务等进一步分类。这种分类方法要求问题的概括应当准确并且范围明确,各个同级类目应当互相排斥,并按文件的主要内容进行归类。因此,相对而言,这种分类方法要求档案人员具有较高的业务水平。
为确保每份文件都能正确归类,使用问题分类法时应注意以下几点:一是在设置分类体系和类目时,要仔细研究立档单位的职权范围和工作任务,并依据档案的具体情况分门设类;二是分类层次和类目不宜过多过碎,否则人们在理解上容易发生误差;三是要正确使用逻辑学原理设置类目;四是应设立一个综合类以包容一些综合性文件和数量过少问题的文件;五是若一份文件同时涉及几个问题,应研究并确认其中的主要问题,将文件归入相应类别。
在实际工作中,由于全宗内文书档案构成的复杂性,单纯采用一种分类方法划分文书档案的类别是比较少的,通常是将两种或两种以上的分类方法结合起来使用。各单位最常用的分类方法主要有:年度——组织机构分类法、年度——问题分类法、年度——机构——保管期限分类法、保管期限——年度——机构分类法。
文书档案管理工作的失误将影响其以后使用的正确性,其影响力不容忽视,做好文书档案的管理工作就必须先要求从基础工作入手,档案的管理工作不仅仅是“管好堆”,应不断的完善原有的档案。保证现有档案工作无错误的基础上,要求档案工作者对原有档案应进行核查,以防之前档案管理工作的失误,从中发现错误时,应采取补救措施以使失误造成的损失降到最低。这就要求档案工作者要全心全意地进行档案工作管理,从基础抓起。
4 结论文书档案分类一般是通过最低一级的档案逐步朝着高级档案进行分类,这种方法在应用的过程中是通过确定归档文件先后顺序的方式来排列。由于文书档案在分类中是一个复杂的过程,因此需要结合科学技术不断更新,确保分类归档的完整性,为档案工作的提高提供有力依据,提高文书档案管理效率和工作质量。
[2]隋敏.文书档案的科学化管理探讨[J].中国新技术新产品,2011.
❼ 如何将文档归类
其实归类也可以说是归档。归类或者归档的目的是把性质相同或相似的东西收集到一起。如果是电脑上的文档,可以参考我的分类:电影、游戏、软件、书籍、资料。 如果是现实的文档,分类种类就比较多了,比如自己单位的发文、本县单位来文、地区来文、省来文。当然电脑里的文件可以根据年份、月份建立不同的文件夹。整理和归类是一项特别需要技巧和经验的工作,希望你能总结出自己的归类方法,保证资料随取随到,不丢失,随时可以复制使用。
❽ 文档的分类他们的区别具体点好吗
文档的作用和分类
软件文档(document)也称文件,通常指的是一些记录的数据 和数据媒体,它具有固定不变的形式,可被人和计算机阅读.它和 计算机程序共同构成了能完成特定功能的计算机软件(有人把源 程序也当作文档的一部分).我们知道,硬件产品和产品资料在整 个生产过程中都是有形可见的,软件生产则有很大不同,文档本 身就是软件产品.没有文档的软件,不成其为软件,更谈不到软件 产品.软件文档的编制(documentation)在软件开发工作中占有突 出的地位和相当的工作量.高效率,高质量地开发,分发,管理和维 护文档对于转让,变更,修正,扩充和使用文档,对于充分发挥软 件产品的效益有着重要意义. 然而,在实际工作中,文档在编制和使用中存在着许多问 题,有待于解决.软件开发人员中较普遍地存在着对编制文档不感 兴趣的现象.从用户方面看,他们又常常抱怨:文档售价太高,文 档不够完整,文档编写得不好,文档已经陈旧或是文档太多,难于 使用等等.究竟应该怎样要求它,文档应该写哪些,说明什么问 题,起什么作用 这里将给出简要的介绍.
图 文档桥梁作用
文档在软件开发人员,软件管理人员,维护人员,用户以及计 算机之间的多种桥梁作用可从图中看出.软件开发人员在各个阶段中以文档作为前阶段工作成果的体现和后阶段工作的依据,这个作用是显而易见的.软件开发过程中软件开发人员需制定一些工作计划或工作报告,这些计划和报告都要提供给管理人员, 并得到必要的支持.管理人员则可通过这些文档了解软件开发项目安排,进度,资源使用和成果等.软件开发人员需为用户了解软件的使用,操作和维护提供详细的资料,我们称此为用户文档.
以上三种文档构成了软件文档的主要部分.我们把这三种文档所包括的内容列在图6中.其中列举了十三个文档,这里对它们作一些简要说明:
· 可行性研究报告:说明该软件开发项目的实现在技术上,经济上和社会因素上的可行性,评述为了合理地达到开发目标可供 选择的各种可能实施的方案,说明并论证所选定实施方案的理由.
· 项目开发计划:为软件项目实施方案制定出具体计划,应该包括各部分工作的负责人员,开发的进度,开发经费的预算,所 需的硬件及软件资源等.项目开发计划应提供给管理部门,并作 为开发阶段评审的参考.
· 软件需求说明书:也称软件规格说明书,其中对所开发软件的功能,性能,用户界面及运行环境等作出详细的说明.它是用 户与开发人员双方对软件需求取得共同理解基础上达成的协议, 也是实施开发工作的基础.
· 数据要求说明书:该说明书应给出数据逻辑描述和数据采 集的各项要求,为生成和维护 系统数据文卷作好准备.
· 概要设计说明书:该说 明书是概要设计阶段的工作 成果,它应说明功能分配,模 块划分,程序的总体结构,输 入输出以及接口设计,运行设 计,数据结构设计和出错处理 设计等,为详细设计奠定基 础.
· 详细设计说明书:着重 描述每一模块是怎样实现的, 包括实现算法,逻辑流程等.
·用户手册:本手册详细 描述软件的功能,性能和用户 界面,使用户了解如何使用该软件.
图 三种文档
· 操作手册:本手册为操作人员提供该软件各种运行情况的有关知识,特别是操作方法的具体细节.
· 测试计划:为做好组装测试和确认测试,需为如何组织测试制定实施计划.计划应包括测试的内容,进度,条件,人员,测试用 例的选取原则,测试结果允许的偏差范围等.
· 测试分析报告:测试工作完成以后,应提交测试计划执行 情况的说明.对测试结果加以分析,并提出测试的结论意见.
· 开发进度月报:该月报系软件人员按月向管理部门提交的 项目进展情况报告.报告应包括进度计划与实际执行情况的比较, 阶段成果,遇到的问题和解决的办法以及下个月的打算等.
· 项目开发总结报告:软件项目开发完成以后,应与项目实 施计划对照,总结实际执行的情况,如进度,成果,资源利用,成本 和投入的人力.此外还需对开发工作作出评价,总结出经验和教训.
· 哪些需求要被满足,即回答"做什么 "
· 所开发的软件在什么环境中实现以及所需信息从哪里来, 即回答"从何处 "
· 某些开发工作的时间如何安排,即回答"何时干 "
· 某些开发(或维护)工作打算由"谁来干 " · 某些需求是怎么实现的
· 为什么要进行那些软件开发或维护修改工作 上述十三个文档都在一定程度上回答了这六个方面的问题.这可从表中看到.
表 文档所回答的问题
至此,我们对文档的作用有了进一步的理解.每一个文档的任 务也是明确的,任何一个文档都此是多余的.
❾ 电脑文件分类整理方法
1、按类别。对于不同模块的资料,建立不同的文件夹,存放相应的资料。这个是最为普遍的做法,我想说的在命名上的小技巧:【加序号】!根据重要程度、使用频率等情况,将常用的文件夹靠前一些,而且对比下面2图,加上序号的看起来会很有条理性。
2、按时间。比如年份、月度、周次等,适用于一些常规、按固定时间发生的工作资料整理,如考勤、周报等等。
3、按名称+时间。加上时间的好处是便于区分,另外以后找资料看起来一目了然。如下图,如果我命名为“新员工培训1、新员工培训2……”,日后需要找5月18日的资料,想想就知道多不方便了。
4、按发展逻辑顺序。如下图,举办一次培训活动,总体而言有3个阶段:培训前、中、后三个阶段的准备工作,我们以此逻辑顺序为根据整理资料也是很清楚的。
5、按姓名+文件名称(+时间)。有的资料是按个人来区分的,这里我的建议是将人名提前!!有的人习惯是“文件名称+姓名”,这样做是不提倡的。因为我们肯定是将一个类型的文件放在一起,区别仅仅在于人,将人名放前面更方便区分,另外,如果文件名称过长呢,不能完全显示,人名在后区分就更加不便。根据需要,还可以加上时间。
6、按文件名称+编号。有些文档存在多次修改校对的情况,在后面加上编号以示区分,如下图名称+“_V2”这种方式比简单加个数字看起来是不是高级、专业不少?
❿ 文本分类的方法
文本分类问题与其它分类问题没有本质上的区别,其方法可以归结为根据待分类数据的某些特征来进行匹配,当然完全的匹配是不太可能的,因此必须(根据某种评价标准)选择最优的匹配结果,从而完成分类。 后来人们意识到,究竟依据什么特征来判断文本应当隶属的类别这个问题,就连人类自己都不太回答得清楚,有太多所谓“只可意会,不能言传”的东西在里面。人类的判断大多依据经验以及直觉,因此自然而然的会有人想到何让机器像人类一样自己来通过对大量同类文档的观察来自己总结经验,作为今后分类的依据。这便是统计学习方法的基本思想。
统计学习方法需要一批由人工进行了准确分类的文档作为学习的材料(称为训练集,注意由人分类一批文档比从这些文档中总结出准确的规则成本要低得多),计算机从这些文档中挖掘出一些能够有效分类的规则,这个过程被形象的称为训练,而总结出的规则集合常常被称为分类器。训练完成之后,需要对计算机从来没有见过的文档进行分类时,便使用这些分类器来进行。这些训练集包括sogou文本分类分类测试数据、中文文本分类分类语料库,包含Arts、Literature等类别的语料文本、可用于聚类的英文文本数据集、网易分类文本分类文本数据、tc-corpus-train(语料库训练集,适用于文本分类分类中的训练)、2002年中文网页分类训练集CCT2002-v1.1等。
现如今,统计学习方法已经成为了文本分类领域绝对的主流。主要的原因在于其中的很多技术拥有坚实的理论基础(相比之下,知识工程方法中专家的主观因素居多),存在明确的评价标准,以及实际表现良好。统计分类算法
将样本数据成功转化为向量表示之后,计算机才算开始真正意义上的“学习”过程。常用的分类算法为:
决策树,Rocchio,朴素贝叶斯,神经网络,支持向量机,线性最小平方拟合,kNN,遗传算法,最大熵,Generalized Instance Set等。在这里只挑几个最具代表性的算法侃一侃。
Rocchio算法
Rocchio算法应该算是人们思考文本分类问题时最先能想到,也最符合直觉的解决方法。基本的思路是把一个类别里的样本文档各项取个平均值(例如把所有 “体育”类文档中词汇“篮球”出现的次数取个平均值,再把“裁判”取个平均值,依次做下去),可以得到一个新的向量,形象的称之为“质心”,质心就成了这 个类别最具代表性的向量表示。再有新文档需要判断的时候,比较新文档和质心有多么相像(八股点说,判断他们之间的距离)就可以确定新文档属不属于这个类。 稍微改进一点的Rocchio算法不仅考虑属于这个类别的文档(称为正样本),也考虑不属于这个类别的文档数据(称为负样本),计算出来的质心尽量靠近正样本同时尽量远离负样本。Rocchio算法做了两个很致命的假设,使得它的性能出奇的差。一是它认为一个类别的文档仅仅聚集在一个质心的周围,实际情况往往不是如此(这样的数据称为线性不可分的);二是它假设训练数据是绝对正确的,因为它没有任何定量衡量样本是否含有噪声的机制,因而也就对错误数据毫无抵抗力。
不过Rocchio产生的分类器很直观,很容易被人类理解,算法也简单,还是有一定的利用价值的,常常被用来做科研中比较不同算法优劣的基线系统(Base Line)。
朴素贝叶斯算法
贝叶斯算法关注的是文档属于某类别概率。文档属于某个类别的概率等于文档中每个词属于该类别的概率的综合表达式。而每个词属于该类别的概率又在一定程度上 可以用这个词在该类别训练文档中出现的次数(词频信息)来粗略估计,因而使得整个计算过程成为可行的。使用朴素贝叶斯算法时,在训练阶段的主要任务就是估计这些值。
朴素贝叶斯算法的公式并不是只有一个。
首先对于每一个样本中的元素要计算先验概率。其次要计算一个样本对于每个分类的概率,概率最大的分类将被采纳。所以
其中P(d| Ci)=P(w1|Ci) P(w2|Ci) …P(wi|Ci) P(w1|Ci) …P(wm|Ci) (式1)
P(w|C)=元素w在分类为C的样本中出现次数/数据整理后的样本中元素的总数(式2)
这其中就蕴含着朴素贝叶斯算法最大的两个缺陷。
首先,P(d| Ci)之所以能展开成(式1)的连乘积形式,就是假设一篇文章中的各个词之间是彼此独立的,其中一个词的出现丝毫不受另一个词的影响(回忆一下概率论中变 量彼此独立的概念就可以知道),但这显然不对,即使不是语言学专家的我们也知道,词语之间有明显的所谓“共现”关系,在不同主题的文章中,可能共现的次数 或频率有变化,但彼此间绝对谈不上独立。
其二,使用某个词在某个类别训练文档中出现的次数来估计P(wi|Ci)时,只在训练样本数量非常多的情况下才比较准确(考虑扔硬币的问题,得通过大量观 察才能基本得出正反面出现的概率都是二分之一的结论,观察次数太少时很可能得到错误的答案),而需要大量样本的要求不仅给前期人工分类的工作带来更高要求 (从而成本上升),在后期由计算机处理的时候也对存储和计算资源提出了更高的要求。
但是稍有常识的技术人员都会了解,数据挖掘中占用大量时间的部分是数据整理。在数据整理阶段,可以根据词汇的情况生成字典,删除冗余没有意义的词汇,对于单字和重要的词组分开计算等等。
这样可以避免朴素贝叶斯算法的一些问题。其实真正的问题还是存在于算法对于信息熵的计算方式。
朴素贝叶斯算法在很多情况下,通过专业人员的优化,可以取得极为良好的识别效果。最为人熟悉的两家跨国软件公司在目前仍采用朴素贝叶斯算法作为有些软件自然语言处理的工具算法。
kNN算法
最近邻算法(kNN):在给定新文档后,计算新文档特征向量和训练文档集中各个文档的向量的相似度,得到K篇与该新文 档距离最近最相似的文档,根据这K篇文档所属的类别判定新文档所属的类别(注意这也意味着kNN算法根本没有真正意义上的“训练”阶段)。这种判断方法很 好的克服了Rocchio算法中无法处理线性不可分问题的缺陷,也很适用于分类标准随时会产生变化的需求(只要删除旧训练文档,添加新训练文档,就改变了 分类的准则)。
kNN唯一的也可以说最致命的缺点就是判断一篇新文档的类别时,需要把它与现存的所有训练文档全都比较一遍,这个计算代价并不是每个系统都能够承受的(比 如我将要构建的一个文本分类系统,上万个类,每个类即便只有20个训练样本,为了判断一个新文档的类别,也要做20万次的向量比较!)。一些基于kNN的 改良方法比如Generalized Instance Set就在试图解决这个问题。
kNN也有另一个缺点,当样本不平衡时,如一个类的样本容量很大,而其他类样本容量很小时,有可能导致当输入一个新样本时,该样本的K个邻居中大容量类的样本占多数。 SVM(Support Vector Machine)是Cortes和Vapnik于1995年首先提出的,它在解决小样本、非线性及高维模式识别中表现出许多特有的优势,并能够推广应用到函数拟合等其他机器学习问题中。
支持向量机方法是建立在统计学习理论的VC维理论和结构风险最小原理基础上的,根据有限的样本信息在模型的复杂性(即对特定训练样本的学习精度,Accuracy)和学习能力(即无错误地识别任意样本的能力)之间寻求最佳折衷,以期获得最好的推广能力(或称泛化能力)。
SVM 方法有很坚实的理论基础,SVM 训练的本质是解决一个二次规划问题(Quadruple Programming,指目标函数为二次函数,约束条件为线性约束的最优化问题),得到的是全局最优解,这使它有着其他统计学习技术难以比拟的优越性。 SVM分类器的文本分类效果很好,是最好的分类器之一。同时使用核函数将 原始的样本空间向高维空间进行变换,能够解决原始样本线性不可分的问题。其缺点是核函数的选择缺乏指导,难以针对具体问题选择最佳的核函数;另外SVM 训练速度极大地受到训练集规模的影响,计算开销比较大,针对SVM 的训练速度问题,研究者提出了很多改进方法,包括Chunking 方法、Osuna算法、SMO 算法和交互SVM 等。SVM分类器的优点在于通用性较好,且分类精度高、分类速度快、分类速度与训练样本个数无关,在查准和查全率方面都略优于kNN及朴素贝叶斯方法。