簡述常用文檔復式分類方法_如何將電腦中的文件進行分類管理如何分類

❶ 如何將電腦中的文件進行分類管理，如何分類

1、首先將需要分類管理的文件放入文件夾中，可以新建一個文件夾進行存放。

❷ 如何對文檔進行多種分類

全能文檔管理系統 V7.5 http://www.ote.com/soft/6304.html
本軟體用於對常用格式的電子文檔進行分類、全文檢索和利用，支持的格式包括pdf、html、word、powerpoint、excel、文本以及圖片、音頻、視頻等。
分類：從文件夾導入文檔時，可以保持文件夾的結構，也可以建立新的分類文件夾；可以將一個或多個文檔拖放到某個文件夾進行歸類；文件夾可查找，也可從文檔反向定位到文件夾。
檢索：可以選擇任意幾個文件夾作為檢索范圍；支持文檔屬性的組合檢索和內容的全文檢索，支持當前文檔內查找；文檔一律展示為原始格式，並包含完美的命中詞高亮顯示和跳轉功能。
其他：設置口令保護、自定義收藏夾、排序、打開到原文件位置、列印和保存、綠色軟體任意拷貝或移動即可執行。

文管王文檔管理系統 V4.51 http://www.ote.com/soft/3189.html
File Security Manager V1.7.3.6
http://download.zol.com.cn/detail/11/105812.shtml
文檔管理專家:
http://www.tingtaoz.com/Fr547/B30043/

❸ 面對多重屬性和類型的文件要如何分類，舉例說明：某文件，既屬於書籍類，又屬於電子文檔類。

提供給你幾個關於處理文件的小技巧：
不要保存不必要的文件。不要養成保存收件箱里所有東西的壞習慣。花一點時間瀏覽一下內容，只有了解到它跟你的工作有關時再保存。電腦里保存太多零碎文件將來找的時候會很不方便;而且它們還會影響電腦的運行速度。---所以保存文件之前先篩選一下。
給你的文件和文件夾統一命名。例如：可以將文件夾分成「財務」、「工程」和「資料」三個子文件夾。在前面標上簡寫的名字用於區別它們隸屬於不同的文件夾。還有，我們可以為不同的文件夾設置不同的外觀使他們變得更容易區分。
把有關的文件存在一起，而不去管他們的格式。舉個例子：把與同一個項目有關的word文檔、ppt、spreadsheet和圖表放在一個文件夾里。而不是一個文件夾裝所有的ppt，另一個裝所有的文檔等等。這樣，找某個特定項目的各種附件將更加快捷。
把在做的項目和已經完成的項目分開來。有些人偏向於把當前未完成的項目保存在桌面上。等項目做完了，再移到合適的地方去分類存放，然後再定期的(例如每周或者每兩周)把那些不再需要的文件也按類別放到已完成文件夾里。
不要讓文件夾里裝得太滿。如果一個文件夾里裝太多文件或者子文件夾，多到整個屏幕都顯示不下，還要滾動滑鼠滾輪才能看完全部條目---這時就應該把這個滿滿的文件夾分成幾個小一點的子文件夾，列一個按修改時間順序或者字母表順序的清單，這樣便於今後提取。比如：你可以把一個叫「工程項目」的文件夾分成「BP2005」、「BP2006「和「BP2007」等子文件夾。
同樣假設你的一個同事叫「某某」，你就可以按他的姓名分成「某某」或者「某某的文件」，這樣的方式使子文件夾顯得有條理，而不是一堆文件清單堆在一起。
說到這里，還有一個需要注意的小要點，如果子文件夾的文件少於五個的話，那你去點開層層的文件夾找到所需的文件可能節省不了多少時間。
記得備份你的文件歸檔系統。再強調一遍：這個聽起來有點枯燥，但是很重要。所有壞過硬碟的人都可以證明!首先保證給計算機定期做備份，再給文檔信息包括聯系人都做備份。按行動先後次序整理利用這些更深入的方法定製你的文件歸檔系統。這有助於你分清工作優先順序，提高效率。
按日期整理文件。把文件夾按日期命名。這樣可以幫你在不點開文件夾的情況下確定那個文件是最近的，例如：一個文件夾命名為2012.1.1表明這個指導文件是2012年1月1號的。
如果你的文件是幾個人共同管理的，你必須特別注意一下版本問題：如果把別人的版本弄混了或者弄丟了會很煩人
把版本號放在文件名一起的同時，還要把版本列表放在文件中表明版本號、版本日期、修改者，還有，如果有的話，修改類型也要標注。
使用記事本文件。把記事本文件當成目錄，也就是所謂的「文件夾方案」，是很多人用的一種獨特的文件整理方式。建立12個文件夾(每個月一個)另加31個子文件夾(一天一個)。把每天要完成的工作放在相應的文件夾里。這樣在每天開始的時候，打開那天所對應的文件夾，把文件全部放到桌面上或者放到一個文件夾中。然後把空的文件夾移到下個月對應的位置。如果你又是一天不能完成當天的工作，那就把它放到明天對應的文件夾中。這個系統可以幫助你整理記錄每天的任務，也可以作日記本用，查找時候可以先看記事本再針對性的去找。
對於任何一個高效方便的文件歸檔系統來說，適合你是最重要的。在某種程度上它取決於你工作的性質。所以，沒有一個萬能的方法去做歸檔，你也可以根據這些小建議定製出一套適合自己的系統。
要點：
你是否經常因為在成堆的零碎文件里找資料而浪費很多時間?當面對壓力時，你能不能很快找到你要的信息?花費寶貴的時間找東西實在是讓工作變得很無趣，也會給你帶來很多壓力。這些簡單的關於文件歸檔整理的技巧可以教會你如何整理信息並保存它們。
把它變成你生活的一部分：
我們知道這個很枯燥，但是你知道你必須這樣做!
抽出一個小時時間，建立起一套適合你的文件歸檔系統吧!

❹ 文檔如何分類

根據制定標準的部門和標准適用程度的不同，標准可以分為國際標准、國際性區域標准、國家標准、行業標准、地方標准、企業標准。國際標准由國際標准化組織（ISO）制定，供全世界統一使用。國家標准由國家標准局統一按GB××××—××的編號方式發布，在全國范圍內有效。地方標准由地方標准主管部門按DB××××—××××××的編號方式發布，在當地有效。

❺ 怎樣進行文檔分類

按照部門分類：行政管理、人力資源管理、銷售、售後服務（或者市場）、生產、財務等。在每個大的分類里在進行分類如人力資源：合同、社保、員工檔案、考勤、獎勵；生產：計劃、設備維修、設備圖紙、庫存產品、（這一項也可以放在財務檔案里）。

❻ 簡述文書檔案最常見的幾種分類方法

趙琦（黑龍江省總工會，黑龍江哈爾濱 150000）
摘要：文書檔案是社會發展的主要記錄載體，從古至今，人們對檔案工作一直都非常重視。在社會不斷發展中，文書檔案管理方法不斷完善，這也意味著文書檔案的管理不斷細分，因此在文書檔案管理中需要對檔案進行嚴格分類，以此提高文書檔案工作效率。本文闡述了文書檔案工作中最常見的三類分類方法，主要分為：年度分類法、組織機構分類法和問題分類法。
關鍵詞：文書檔案；分類方法；年度分類法；組織機構；問題分類法
文書檔案是記載了社會發展中各種現實事物發生的整體過程，通過對歷史客觀記錄來衡量某一時期領導人供給，同時是反應某一時期各個基層、部門建設和科技成果開發的主要措施。伴隨著社會發展中，人們對文書檔案認識的不斷增加，文書檔案分類是與檔案整體工作的基本出發點和根本目的，是保持文件之間歷史聯系發生各種矛盾的過程中能夠充分的考慮和保管，利用相應的方便來實現檔案管理效率。在文書檔案工作中，分類是通過將文件按照不同的形式和形成機關等因素分開，避免出現不同機關文件的混雜，造成檔案管理工作的混亂。
1 年度分類法
就是根據形成和處理文件的年度，是通過將全宗內的所有文書檔案按照時間為標准進行逐步區分，通過形成年限逐次排開。運用年度分類法，要求根據文件的准確日期將文書檔案進行歸納，並且註明其形成的實踐，這是確保分類質量和效率的關鍵，同時也是在當前實際工作中能夠合理完善檔案分類工作的有效措施，其在分類的過程中需要注意一下幾個方面：
一是在實際社會活動中，不僅有通用的公歷年度，其中也有一些特殊行業和部門是按照工作性質和工作特點的需要來對檔案在應用中採用過去農歷方式進行編制的，這就造成檔案在分類中容易混淆的問題，因此在分類的過程中需要對這種情況嚴加分析，避免出現文檔分類的混亂。
二是某些文件上有幾種日期，如起草日期、簽署日期、批准日期、會議通過日期、發布日期和收文日期等，這些日期有時還不屬於同一年度。在這種情況下，要根據文件的具體情況確定一個最能說明文件時間特點的日期。通常的做法是：內部文件和一般發文以文件的寫成日期為根據；來往文件中收文以收到日期為根據；法律、法令和條例等法規文件以批准日期或公布、生效日期為根據；指示、命令等指令性文件以文件簽署日期即落款日期為根據；計劃、總結、預算、決算、統計報表等以內容所針對的時限為根據；跨年度處理的專門案卷、來往文書等可放入關系最密切的年度或最後結案的年度。
期刊文章分類查詢,盡在期刊圖書館三是一些文件由於某種原因沒有標注或找不到日期，對此需要根據文件的具體情況，採取適宜的辦法考證和判定文件的准確或近似的日期，並將其妥善歸類。在文書檔案的管理工作中，對分類要求日益增加。文書檔案在管理中一般都是通過以每份文件為一件，文件正本與定稿為一件，正文與附件為一件，元件與復製件為一件，轉發文件與被轉發文件。
四是在年度分類的過程中一般都是通過將一份文件結合實踐特徵來進行整理，這是通過成文時間、簽發時間、批復時間、通過實踐和公布時間等，不過在目前的分類管理中一般應用醉倒的是文件的簽發時間。以文件簽發時間來判定文件的所屬年度是當前對各個單位和企業進行總結的主要方法，同時也是按照新方法取消其中內容的主要手段。
2 組織機構分類法
就是根據文書處理階段形成和處理文件的承辦單位進行分類。它以立檔單位內部的組織機構為標准，按不同的機構分別設置類目。
採用組織機構分類方法應具備一定的條件：第一，立檔單位每年設立的內部組織機構應當基本穩定。內部組織機構經常調整變化的立檔單位，不宜採用這種方法。第二，立檔單位設立的各個內部組織機構應當能夠反映該單位的職能分工情況，並且每個組織機構具有較穩定的基本工作任務或職責，其工作活動的內容及過程應同該機構承擔的相關職能保持一致。第三，立檔單位的文件上應有各組織機構在形成及承辦文件時留下的標記，如收文章、發文號等。
組織機構分類法的類別設置，一般是以立檔單位內第一層組織機構分類，需要時也可以分到第二層組織機構，往往有一個機構就設一個類。如果一個單位的機構包括辦公室、人事部、財會部、組織部、宣傳部等，採用組織機構分類法就可將檔案分為辦公室類、人事部類、財會部類、組織部類、宣傳部類等。各類的排列次序一般按習慣或正式文件的規定，把領導機構、綜合機構排在前面。
3 問題分類法
就是按照文件內容所反映的問題或「事由」將文書檔案劃分成各個類別。它以文件的內容為標准，按文件所涉及的問題（事由）分類。如一個全宗內的檔案可以按人事、計劃、生產、銷售等類別分類，銷售類內的檔案還可以按廣告宣傳、推銷、運輸、售後服務等進一步分類。這種分類方法要求問題的概括應當准確並且范圍明確，各個同級類目應當互相排斥，並按文件的主要內容進行歸類。因此，相對而言，這種分類方法要求檔案人員具有較高的業務水平。
為確保每份文件都能正確歸類，使用問題分類法時應注意以下幾點：一是在設置分類體系和類目時，要仔細研究立檔單位的職權范圍和工作任務，並依據檔案的具體情況分門設類；二是分類層次和類目不宜過多過碎，否則人們在理解上容易發生誤差；三是要正確使用邏輯學原理設置類目；四是應設立一個綜合類以包容一些綜合性文件和數量過少問題的文件；五是若一份文件同時涉及幾個問題，應研究並確認其中的主要問題，將文件歸入相應類別。
在實際工作中，由於全宗內文書檔案構成的復雜性，單純採用一種分類方法劃分文書檔案的類別是比較少的，通常是將兩種或兩種以上的分類方法結合起來使用。各單位最常用的分類方法主要有：年度——組織機構分類法、年度——問題分類法、年度——機構——保管期限分類法、保管期限——年度——機構分類法。
文書檔案管理工作的失誤將影響其以後使用的正確性，其影響力不容忽視，做好文書檔案的管理工作就必須先要求從基礎工作入手，檔案的管理工作不僅僅是「管好堆」，應不斷的完善原有的檔案。保證現有檔案工作無錯誤的基礎上，要求檔案工作者對原有檔案應進行核查，以防之前檔案管理工作的失誤，從中發現錯誤時，應採取補救措施以使失誤造成的損失降到最低。這就要求檔案工作者要全心全意地進行檔案工作管理，從基礎抓起。
4 結論文書檔案分類一般是通過最低一級的檔案逐步朝著高級檔案進行分類，這種方法在應用的過程中是通過確定歸檔文件先後順序的方式來排列。由於文書檔案在分類中是一個復雜的過程，因此需要結合科學技術不斷更新，確保分類歸檔的完整性，為檔案工作的提高提供有力依據，提高文書檔案管理效率和工作質量。
[2]隋敏.文書檔案的科學化管理探討[J].中國新技術新產品，2011.

❼ 如何將文檔歸類

其實歸類也可以說是歸檔。歸類或者歸檔的目的是把性質相同或相似的東西收集到一起。如果是電腦上的文檔，可以參考我的分類：電影、游戲、軟體、書籍、資料。如果是現實的文檔，分類種類就比較多了，比如自己單位的發文、本縣單位來文、地區來文、省來文。當然電腦里的文件可以根據年份、月份建立不同的文件夾。整理和歸類是一項特別需要技巧和經驗的工作，希望你能總結出自己的歸類方法，保證資料隨取隨到，不丟失，隨時可以復制使用。

❽ 文檔的分類他們的區別具體點好嗎

文檔的作用和分類
軟體文檔(document)也稱文件,通常指的是一些記錄的數據和數據媒體,它具有固定不變的形式,可被人和計算機閱讀.它和計算機程序共同構成了能完成特定功能的計算機軟體(有人把源程序也當作文檔的一部分).我們知道,硬體產品和產品資料在整個生產過程中都是有形可見的,軟體生產則有很大不同,文檔本身就是軟體產品.沒有文檔的軟體,不成其為軟體,更談不到軟體產品.軟體文檔的編制(documentation)在軟體開發工作中佔有突出的地位和相當的工作量.高效率,高質量地開發,分發,管理和維護文檔對於轉讓,變更,修正,擴充和使用文檔,對於充分發揮軟件產品的效益有著重要意義. 然而,在實際工作中,文檔在編制和使用中存在著許多問題,有待於解決.軟體開發人員中較普遍地存在著對編制文檔不感興趣的現象.從用戶方面看,他們又常常抱怨:文檔售價太高,文檔不夠完整,文檔編寫得不好,文檔已經陳舊或是文檔太多,難於使用等等.究竟應該怎樣要求它,文檔應該寫哪些,說明什麼問題,起什麼作用這里將給出簡要的介紹.
圖文檔橋梁作用
文檔在軟體開發人員,軟體管理人員,維護人員,用戶以及計算機之間的多種橋梁作用可從圖中看出.軟體開發人員在各個階段中以文檔作為前階段工作成果的體現和後階段工作的依據,這個作用是顯而易見的.軟體開發過程中軟體開發人員需制定一些工作計劃或工作報告,這些計劃和報告都要提供給管理人員, 並得到必要的支持.管理人員則可通過這些文檔了解軟體開發項目安排,進度,資源使用和成果等.軟體開發人員需為用戶了解軟體的使用,操作和維護提供詳細的資料,我們稱此為用戶文檔.
以上三種文檔構成了軟體文檔的主要部分.我們把這三種文檔所包括的內容列在圖6中.其中列舉了十三個文檔,這里對它們作一些簡要說明:
· 可行性研究報告:說明該軟體開發項目的實現在技術上,經濟上和社會因素上的可行性,評述為了合理地達到開發目標可供選擇的各種可能實施的方案,說明並論證所選定實施方案的理由.
· 項目開發計劃:為軟體項目實施方案制定出具體計劃,應該包括各部分工作的負責人員,開發的進度,開發經費的預算,所需的硬體及軟體資源等.項目開發計劃應提供給管理部門,並作為開發階段評審的參考.
· 軟體需求說明書:也稱軟體規格說明書,其中對所開發軟體的功能,性能,用戶界面及運行環境等作出詳細的說明.它是用戶與開發人員雙方對軟體需求取得共同理解基礎上達成的協議, 也是實施開發工作的基礎.
· 數據要求說明書:該說明書應給出數據邏輯描述和數據采集的各項要求,為生成和維護系統數據文卷作好准備.
· 概要設計說明書:該說明書是概要設計階段的工作成果,它應說明功能分配,模塊劃分,程序的總體結構,輸入輸出以及介面設計,運行設計,數據結構設計和出錯處理設計等,為詳細設計奠定基礎.
· 詳細設計說明書:著重描述每一模塊是怎樣實現的, 包括實現演算法,邏輯流程等.
·用戶手冊:本手冊詳細描述軟體的功能,性能和用戶界面,使用戶了解如何使用該軟體.
圖三種文檔
· 操作手冊:本手冊為操作人員提供該軟體各種運行情況的有關知識,特別是操作方法的具體細節.
· 測試計劃:為做好組裝測試和確認測試,需為如何組織測試制定實施計劃.計劃應包括測試的內容,進度,條件,人員,測試用例的選取原則,測試結果允許的偏差范圍等.
· 測試分析報告:測試工作完成以後,應提交測試計劃執行情況的說明.對測試結果加以分析,並提出測試的結論意見.
· 開發進度月報:該月報系軟體人員按月向管理部門提交的項目進展情況報告.報告應包括進度計劃與實際執行情況的比較, 階段成果,遇到的問題和解決的辦法以及下個月的打算等.
· 項目開發總結報告:軟體項目開發完成以後,應與項目實施計劃對照,總結實際執行的情況,如進度,成果,資源利用,成本和投入的人力.此外還需對開發工作作出評價,總結出經驗和教訓.
· 哪些需求要被滿足,即回答"做什麼 "
· 所開發的軟體在什麼環境中實現以及所需信息從哪裡來, 即回答"從何處 "
· 某些開發工作的時間如何安排,即回答"何時干 "
· 某些開發(或維護)工作打算由"誰來干 " · 某些需求是怎麼實現的
· 為什麼要進行那些軟體開發或維護修改工作上述十三個文檔都在一定程度上回答了這六個方面的問題.這可從表中看到.
表文檔所回答的問題
至此,我們對文檔的作用有了進一步的理解.每一個文檔的任務也是明確的,任何一個文檔都此是多餘的.

❾ 電腦文件分類整理方法

1、按類別。對於不同模塊的資料，建立不同的文件夾，存放相應的資料。這個是最為普遍的做法，我想說的在命名上的小技巧：【加序號】！根據重要程度、使用頻率等情況，將常用的文件夾靠前一些，而且對比下面2圖，加上序號的看起來會很有條理性。

2、按時間。比如年份、月度、周次等，適用於一些常規、按固定時間發生的工作資料整理，如考勤、周報等等。

3、按名稱+時間。加上時間的好處是便於區分，另外以後找資料看起來一目瞭然。如下圖，如果我命名為「新員工培訓1、新員工培訓2……」，日後需要找5月18日的資料，想想就知道多不方便了。

4、按發展邏輯順序。如下圖，舉辦一次培訓活動，總體而言有3個階段：培訓前、中、後三個階段的准備工作，我們以此邏輯順序為根據整理資料也是很清楚的。

5、按姓名+文件名稱（+時間）。有的資料是按個人來區分的，這里我的建議是將人名提前！！有的人習慣是「文件名稱+姓名」，這樣做是不提倡的。因為我們肯定是將一個類型的文件放在一起，區別僅僅在於人，將人名放前面更方便區分，另外，如果文件名稱過長呢，不能完全顯示，人名在後區分就更加不便。根據需要，還可以加上時間。

6、按文件名稱+編號。有些文檔存在多次修改校對的情況，在後面加上編號以示區分，如下圖名稱+「_V2」這種方式比簡單加個數字看起來是不是高級、專業不少？

❿ 文本分類的方法

文本分類問題與其它分類問題沒有本質上的區別，其方法可以歸結為根據待分類數據的某些特徵來進行匹配，當然完全的匹配是不太可能的，因此必須（根據某種評價標准）選擇最優的匹配結果，從而完成分類。後來人們意識到，究竟依據什麼特徵來判斷文本應當隸屬的類別這個問題，就連人類自己都不太回答得清楚，有太多所謂「只可意會，不能言傳」的東西在裡面。人類的判斷大多依據經驗以及直覺，因此自然而然的會有人想到何讓機器像人類一樣自己來通過對大量同類文檔的觀察來自己總結經驗，作為今後分類的依據。這便是統計學習方法的基本思想。
統計學習方法需要一批由人工進行了准確分類的文檔作為學習的材料（稱為訓練集，注意由人分類一批文檔比從這些文檔中總結出准確的規則成本要低得多），計算機從這些文檔中挖掘出一些能夠有效分類的規則，這個過程被形象的稱為訓練，而總結出的規則集合常常被稱為分類器。訓練完成之後，需要對計算機從來沒有見過的文檔進行分類時，便使用這些分類器來進行。這些訓練集包括sogou文本分類分類測試數據、中文文本分類分類語料庫，包含Arts、Literature等類別的語料文本、可用於聚類的英文文本數據集、網易分類文本分類文本數據、tc-corpus-train(語料庫訓練集，適用於文本分類分類中的訓練)、2002年中文網頁分類訓練集CCT2002-v1.1等。
現如今，統計學習方法已經成為了文本分類領域絕對的主流。主要的原因在於其中的很多技術擁有堅實的理論基礎（相比之下，知識工程方法中專家的主觀因素居多），存在明確的評價標准，以及實際表現良好。統計分類演算法
將樣本數據成功轉化為向量表示之後，計算機才算開始真正意義上的「學習」過程。常用的分類演算法為：
決策樹，Rocchio，樸素貝葉斯，神經網路，支持向量機，線性最小平方擬合，kNN，遺傳演算法，最大熵，Generalized Instance Set等。在這里只挑幾個最具代表性的演算法侃一侃。
Rocchio演算法
Rocchio演算法應該算是人們思考文本分類問題時最先能想到，也最符合直覺的解決方法。基本的思路是把一個類別里的樣本文檔各項取個平均值（例如把所有「體育」類文檔中詞彙「籃球」出現的次數取個平均值，再把「裁判」取個平均值，依次做下去），可以得到一個新的向量，形象的稱之為「質心」，質心就成了這個類別最具代表性的向量表示。再有新文檔需要判斷的時候，比較新文檔和質心有多麼相像（八股點說，判斷他們之間的距離）就可以確定新文檔屬不屬於這個類。稍微改進一點的Rocchio演算法不僅考慮屬於這個類別的文檔（稱為正樣本），也考慮不屬於這個類別的文檔數據（稱為負樣本），計算出來的質心盡量靠近正樣本同時盡量遠離負樣本。Rocchio演算法做了兩個很致命的假設，使得它的性能出奇的差。一是它認為一個類別的文檔僅僅聚集在一個質心的周圍，實際情況往往不是如此（這樣的數據稱為線性不可分的）；二是它假設訓練數據是絕對正確的，因為它沒有任何定量衡量樣本是否含有雜訊的機制，因而也就對錯誤數據毫無抵抗力。
不過Rocchio產生的分類器很直觀，很容易被人類理解，演算法也簡單，還是有一定的利用價值的，常常被用來做科研中比較不同演算法優劣的基線系統（Base Line）。
樸素貝葉斯演算法
貝葉斯演算法關注的是文檔屬於某類別概率。文檔屬於某個類別的概率等於文檔中每個詞屬於該類別的概率的綜合表達式。而每個詞屬於該類別的概率又在一定程度上可以用這個詞在該類別訓練文檔中出現的次數（詞頻信息）來粗略估計，因而使得整個計算過程成為可行的。使用樸素貝葉斯演算法時，在訓練階段的主要任務就是估計這些值。
樸素貝葉斯演算法的公式並不是只有一個。
首先對於每一個樣本中的元素要計算先驗概率。其次要計算一個樣本對於每個分類的概率，概率最大的分類將被採納。所以
其中P(d| Ci)=P(w1|Ci) P(w2|Ci) …P(wi|Ci) P(w1|Ci) …P(wm|Ci) （式1）
P(w|C)=元素w在分類為C的樣本中出現次數/數據整理後的樣本中元素的總數(式2)
這其中就蘊含著樸素貝葉斯演算法最大的兩個缺陷。
首先，P(d| Ci)之所以能展開成（式1）的連乘積形式，就是假設一篇文章中的各個詞之間是彼此獨立的，其中一個詞的出現絲毫不受另一個詞的影響（回憶一下概率論中變量彼此獨立的概念就可以知道），但這顯然不對，即使不是語言學專家的我們也知道，詞語之間有明顯的所謂「共現」關系，在不同主題的文章中，可能共現的次數或頻率有變化，但彼此間絕對談不上獨立。
其二，使用某個詞在某個類別訓練文檔中出現的次數來估計P(wi|Ci)時，只在訓練樣本數量非常多的情況下才比較准確（考慮扔硬幣的問題，得通過大量觀察才能基本得出正反面出現的概率都是二分之一的結論，觀察次數太少時很可能得到錯誤的答案），而需要大量樣本的要求不僅給前期人工分類的工作帶來更高要求（從而成本上升），在後期由計算機處理的時候也對存儲和計算資源提出了更高的要求。
但是稍有常識的技術人員都會了解，數據挖掘中佔用大量時間的部分是數據整理。在數據整理階段，可以根據詞彙的情況生成字典，刪除冗餘沒有意義的詞彙，對於單字和重要的片語分開計算等等。
這樣可以避免樸素貝葉斯演算法的一些問題。其實真正的問題還是存在於演算法對於信息熵的計算方式。
樸素貝葉斯演算法在很多情況下，通過專業人員的優化，可以取得極為良好的識別效果。最為人熟悉的兩家跨國軟體公司在目前仍採用樸素貝葉斯演算法作為有些軟體自然語言處理的工具演算法。
kNN演算法
最近鄰演算法（kNN）：在給定新文檔後，計算新文檔特徵向量和訓練文檔集中各個文檔的向量的相似度，得到K篇與該新文檔距離最近最相似的文檔，根據這K篇文檔所屬的類別判定新文檔所屬的類別（注意這也意味著kNN演算法根本沒有真正意義上的「訓練」階段）。這種判斷方法很好的克服了Rocchio演算法中無法處理線性不可分問題的缺陷，也很適用於分類標准隨時會產生變化的需求（只要刪除舊訓練文檔，添加新訓練文檔，就改變了分類的准則）。
kNN唯一的也可以說最致命的缺點就是判斷一篇新文檔的類別時，需要把它與現存的所有訓練文檔全都比較一遍，這個計算代價並不是每個系統都能夠承受的（比如我將要構建的一個文本分類系統，上萬個類，每個類即便只有20個訓練樣本，為了判斷一個新文檔的類別，也要做20萬次的向量比較！）。一些基於kNN的改良方法比如Generalized Instance Set就在試圖解決這個問題。
kNN也有另一個缺點，當樣本不平衡時，如一個類的樣本容量很大，而其他類樣本容量很小時，有可能導致當輸入一個新樣本時，該樣本的K個鄰居中大容量類的樣本佔多數。 SVM(Support Vector Machine)是Cortes和Vapnik於1995年首先提出的，它在解決小樣本、非線性及高維模式識別中表現出許多特有的優勢，並能夠推廣應用到函數擬合等其他機器學習問題中。
支持向量機方法是建立在統計學習理論的VC維理論和結構風險最小原理基礎上的，根據有限的樣本信息在模型的復雜性（即對特定訓練樣本的學習精度，Accuracy）和學習能力（即無錯誤地識別任意樣本的能力）之間尋求最佳折衷，以期獲得最好的推廣能力（或稱泛化能力）。
SVM 方法有很堅實的理論基礎，SVM 訓練的本質是解決一個二次規劃問題（Quadruple Programming，指目標函數為二次函數，約束條件為線性約束的最優化問題），得到的是全局最優解，這使它有著其他統計學習技術難以比擬的優越性。 SVM分類器的文本分類效果很好，是最好的分類器之一。同時使用核函數將原始的樣本空間向高維空間進行變換，能夠解決原始樣本線性不可分的問題。其缺點是核函數的選擇缺乏指導，難以針對具體問題選擇最佳的核函數；另外SVM 訓練速度極大地受到訓練集規模的影響，計算開銷比較大，針對SVM 的訓練速度問題，研究者提出了很多改進方法，包括Chunking 方法、Osuna演算法、SMO 演算法和交互SVM 等。SVM分類器的優點在於通用性較好，且分類精度高、分類速度快、分類速度與訓練樣本個數無關，在查准和查全率方面都略優於kNN及樸素貝葉斯方法。

導航:首頁 > 使用方法 > 簡述常用文檔復式分類方法

簡述常用文檔復式分類方法

與簡述常用文檔復式分類方法相關的資料