㈠ 海量數據分析處理方法
海量數據分析處理方法
一、Bloom filter
適用范圍:可以用來實現數據字典,進行數據的判重,或者集合求交集
基本原理及要點:
對於原理來說很簡單,位數組+k個獨立hash函數。將hash函數對應的值的位數組置1,查找時如果發現所有hash函數對應位都是1說明存在,很明顯這個過程並不保證查找的結果是100%正確的。同時也不支持刪除一個已經插入的關鍵字,因為該關鍵字對應的位會牽動到其他的關鍵字。所以一個簡單的改進就是 counting Bloom filter,用一個counter數組代替位數組,就可以支持刪除了。
還有一個比較重要的問題,如何根據輸入元素個數n,確定位數組m的大小及hash函數個數。當hash函數個數k=(ln2)*(m/n)時錯誤率最小。在錯誤率不大於E的情況下,m至少要等於n*lg(1/E)才能表示任意n個元素的集合。但m還應該更大些,因為還要保證bit數組里至少一半為0,則m應該>=nlg(1/E)*lge 大概就是nlg(1/E)1.44倍(lg表示以2為底的對數)。
舉個例子我們假設錯誤率為0.01,則此時m應大概是n的13倍。這樣k大概是8個。
注意這里m與n的單位不同,m是bit為單位,而n則是以元素個數為單位(准確的說是不同元素的個數)。通常單個元素的長度都是有很多bit的。所以使用bloom filter內存上通常都是節省的。
擴展:
Bloom filter將集合中的元素映射到位數組中,用k(k為哈希函數個數)個映射位是否全1表示元素在不在這個集合中。Counting bloom filter(CBF)將位數組中的每一位擴展為一個counter,從而支持了元素的刪除操作。Spectral Bloom Filter(SBF)將其與集合元素的出現次數關聯。SBF採用counter中的最小值來近似表示元素的出現頻率。
問題實例:給你A,B兩個文件,各存放50億條URL,每條URL佔用64位元組,內存限制是4G,讓你找出A,B文件共同的URL。如果是三個乃至n個文件呢?
根據這個問題我們來計算下內存的佔用,4G=2^32大概是40億*8大概是340億,n=50億,如果按出錯率0.01算需要的大概是650億個bit。現在可用的是340億,相差並不多,這樣可能會使出錯率上升些。另外如果這些urlip是一一對應的,就可以轉換成ip,則大大簡單了。
二、Hashing
適用范圍:快速查找,刪除的基本數據結構,通常需要總數據量可以放入內存
基本原理及要點:
hash函數選擇,針對字元串,整數,排列,具體相應的hash方法。
碰撞處理,一種是open hashing,也稱為拉鏈法;另一種就是closed hashing,也稱開地址法,opened addressing。
擴展:
d-left hashing中的d是多個的意思,我們先簡化這個問題,看一看2-left hashing。2-left hashing指的是將一個哈希表分成長度相等的兩半,分別叫做T1和T2,給T1和T2分別配備一個哈希函數,h1和h2。在存儲一個新的key時,同時用兩個哈希函數進行計算,得出兩個地址h1[key]和h2[key]。這時需要檢查T1中的h1[key]位置和T2中的h2[key]位置,哪一個位置已經存儲的(有碰撞的)key比較多,然後將新key存儲在負載少的位置。如果兩邊一樣多,比如兩個位置都為空或者都存儲了一個key,就把新key存儲在左邊的T1子表中,2-left也由此而來。在查找一個key時,必須進行兩次hash,同時查找兩個位置。
問題實例:
1).海量日誌數據,提取出某日訪問網路次數最多的那個IP。
IP的數目還是有限的,最多2^32個,所以可以考慮使用hash將ip直接存入內存,然後進行統計。
三、bit-map
適用范圍:可進行數據的快速查找,判重,刪除,一般來說數據范圍是int的10倍以下
基本原理及要點:使用bit數組來表示某些元素是否存在,比如8位電話號碼
擴展:bloom filter可以看做是對bit-map的擴展
問題實例:
1)已知某個文件內包含一些電話號碼,每個號碼為8位數字,統計不同號碼的個數。
8位最多99 999 999,大概需要99m個bit,大概10幾m位元組的內存即可。
2)2.5億個整數中找出不重復的整數的個數,內存空間不足以容納這2.5億個整數。
將bit-map擴展一下,用2bit表示一個數即可,0表示未出現,1表示出現一次,2表示出現2次及以上。或者我們不用2bit來進行表示,我們用兩個bit-map即可模擬實現這個2bit-map。
四、堆
適用范圍:海量數據前n大,並且n比較小,堆可以放入內存
基本原理及要點:最大堆求前n小,最小堆求前n大。方法,比如求前n小,我們比較當前元素與最大堆里的最大元素,如果它小於最大元素,則應該替換那個最大元素。這樣最後得到的n個元素就是最小的n個。適合大數據量,求前n小,n的大小比較小的情況,這樣可以掃描一遍即可得到所有的前n元素,效率很高。
擴展:雙堆,一個最大堆與一個最小堆結合,可以用來維護中位數。
問題實例:
1)100w個數中找最大的前100個數。
用一個100個元素大小的最小堆即可。
五、雙層桶劃分-—其實本質上就是【分而治之】的思想,重在分的技巧上!
適用范圍:第k大,中位數,不重復或重復的數字
基本原理及要點:因為元素范圍很大,不能利用直接定址表,所以通過多次劃分,逐步確定范圍,然後最後在一個可以接受的范圍內進行。可以通過多次縮小,雙層只是一個例子。
擴展:
問題實例:
1).2.5億個整數中找出不重復的整數的個數,內存空間不足以容納這2.5億個整數。
有點像鴿巢原理,整數個數為2^32,也就是,我們可以將這2^32個數,劃分為2^8個區域(比如用單個文件代表一個區域),然後將數據分離到不同的區域,然後不同的區域在利用bitmap就可以直接解決了。也就是說只要有足夠的磁碟空間,就可以很方便的解決。
2).5億個int找它們的中位數。
這個例子比上面那個更明顯。首先我們將int劃分為2^16個區域,然後讀取數據統計落到各個區域里的數的個數,之後我們根據統計結果就可以判斷中位數落到那個區域,同時知道這個區域中的第幾大數剛好是中位數。然後第二次掃描我們只統計落在這個區域中的那些數就可以了。
實際上,如果不是int是int64,我們可以經過3次這樣的劃分即可降低到可以接受的程度。即可以先將int64分成2^24個區域,然後確定區域的第幾大數,在將該區域分成2^20個子區域,然後確定是子區域的第幾大數,然後子區域里的數的個數只有2^20,就可以直接利用direct addr table進行統計了。
六、資料庫索引
適用范圍:大數據量的增刪改查
基本原理及要點:利用數據的設計實現方法,對海量數據的增刪改查進行處理。
七、倒排索引(Inverted index)
適用范圍:搜索引擎,關鍵字查詢
基本原理及要點:為何叫倒排索引?一種索引方法,被用來存儲在全文搜索下某個單詞在一個文檔或者一組文檔中的存儲位置的映射。
以英文為例,下面是要被索引的文本: T0 = 「it is what it is」 T1 = 「what is it」 T2 = 「it is a banana」
我們就能得到下面的反向文件索引:
「a」: {2} 「banana」: {2} 「is」: {0, 1, 2} 「it」: {0, 1, 2} 「what」: {0, 1}
檢索的條件」what」,」is」和」it」將對應集合的交集。
正向索引開發出來用來存儲每個文檔的單詞的列表。正向索引的查詢往往滿足每個文檔有序頻繁的全文查詢和每個單詞在校驗文檔中的驗證這樣的查詢。在正向索引中,文檔占據了中心的位置,每個文檔指向了一個它所包含的索引項的序列。也就是說文檔指向了它包含的那些單詞,而反向索引則是單詞指向了包含它的文檔,很容易看到這個反向的關系。
擴展:
問題實例:文檔檢索系統,查詢那些文件包含了某單詞,比如常見的學術論文的關鍵字搜索。
八、外排序
適用范圍:大數據的排序,去重
基本原理及要點:外排序的歸並方法,置換選擇敗者樹原理,最優歸並樹
擴展:
問題實例:
1).有一個1G大小的一個文件,裡面每一行是一個詞,詞的大小不超過16個位元組,內存限制大小是1M。返回頻數最高的100個詞。
這個數據具有很明顯的特點,詞的大小為16個位元組,但是內存只有1m做hash有些不夠,所以可以用來排序。內存可以當輸入緩沖區使用。
九、trie樹
適用范圍:數據量大,重復多,但是數據種類小可以放入內存
基本原理及要點:實現方式,節點孩子的表示方式
擴展:壓縮實現。
問題實例:
1).有10個文件,每個文件1G,每個文件的每一行都存放的是用戶的query,每個文件的query都可能重復。要你按照query的頻度排序。
2).1000萬字元串,其中有些是相同的(重復),需要把重復的全部去掉,保留沒有重復的字元串。請問怎麼設計和實現?
3).尋找熱門查詢:查詢串的重復度比較高,雖然總數是1千萬,但如果除去重復後,不超過3百萬個,每個不超過255位元組。
十、分布式處理 maprece
適用范圍:數據量大,但是數據種類小可以放入內存
基本原理及要點:將數據交給不同的機器去處理,數據劃分,結果歸約。
擴展:
問題實例:
1).The canonical example application of MapRece is a process to count the appearances ofeach different word in a set of documents:
2).海量數據分布在100台電腦中,想個辦法高效統計出這批數據的TOP10。
3).一共有N個機器,每個機器上有N個數。每個機器最多存O(N)個數並對它們操作。如何找到N^2個數的中數(median)?
㈡ 如何用WinDbg分析MEMORY.DMP文件
在C++實際開發過程中,開發出來的程序,一般情況下由開發人員進行單元測試,然後移交給測試人員進行測試。在開發人員測試出現的bug,我們可以直接在本地進行調試。如果測試人員測試出崩潰級別的bug,如果我們需要調試往往藉助於vs提供的Remote Debugger工具進行遠程調試,然是當程序在用戶手中出現崩潰此時我們可以採用Remote Debugger進行調試,但是如果此時開發人員無法直接去用戶現場調試,此時就需要用戶生成DMP文件,以便開發人員使用DMP文件進行分析。
本文主要介紹C++開發過程中出現程序崩潰後,如何進行分析定位bug(基於xp系統)。
一、DMP文件獲取設置
(1)在運行窗口中輸入 drwtsn32 -i ,並且點擊確定
WinDbg分析DMP文件方法完全攻略
(2)在(1)確定後彈出如下對話框
WinDbg分析DMP文件方法完全攻略
(3)在(2)彈出的確定框後點擊確定按鈕完成,將Dr.Watson設置為默認應用程序調試程序。
Dr.Watson系統自帶的程序。
(4)再次在運行窗口中輸入:drwtsn32,如下圖:
WinDbg分析DMP文件方法完全攻略
(5)點擊確定按鈕,在彈出的對話框中按照下列方式設置
WinDbg分析DMP文件方法完全攻略
(6) 點擊確定按鈕完成DMP文件設置。
二、關閉Dr.Watson方法
(1)打開注冊表
(2)在注冊表中進入主鍵[HKEY_LOCAL_MACHINE\SOFTWARE\Microsoft\WindowsNT\CurrentVersion\AeDebug],然後將「AUTO」鍵值設置為0如下圖:
WinDbg分析DMP文件方法完全攻略
三、Windbg下載,下載完成後安裝
四、DMP文件獲取
(1) 用vs2010創建一個基於win32的程序,其源碼如下:
WinDbg分析DMP文件方法完全攻略
(2)我們知道在學習C++中整數不能跟0進行除運算,否則會引起程序崩潰。而(1)中就是編寫能觸發0的異常,導致程序結束運行的程序。編譯(1)中的程序,結果如下:
WinDbg分析DMP文件方法完全攻略
(3)運行(2)中test.exe程序 ,程序崩潰。如下圖:
WinDbg分析DMP文件方法完全攻略
(4) 按照《一、DMP文件獲取設置》步驟實現Dr.Watson設置為默認應用程序調試程序。
(5)再次運行運行(2)中test.exe程序 如下圖:
WinDbg分析DMP文件方法完全攻略
點擊確定完成dmp文件的生成。
(6)打開在(4)中設置dmp文件路徑。(本例中默認地址為:C:\Documents and Settings\All Users\Application Data\Microsoft\Dr Watson)如下圖:
WinDbg分析DMP文件方法完全攻略
其中user.dmp就是我們需要的dmp文件。
五、分析《四、DMP文件獲取》中獲取的DMP文件。
㈢ 如何用windbg分析memory.dmp文件
在C++實際開發過程中,開發出來的程序,一般情況下由開發人員進行單元測試,然後移交給測試人員進行測試。在開發人員測試出現的bug,我們可以直接在本地進行調試。如果測試人員測試出崩潰級別的bug,如果我們需要調試往往藉助於vs提供的Remote Debugger工具進行遠程調試(關於vs2010遠程調試的方法,請參考http://blog.sina.com.cn/s/blog_a459dcf5010153o7.html),然是當程序在用戶手中出現崩潰此時我們可以採用Remote Debugger進行調試,但是如果此時開發人員無法直接去用戶現場調試,此時就需要用戶生成DMP文件,以便開發人員使用DMP文件進行分析。
本文主要介紹C++開發過程中出現程序崩潰後,如何進行分析定位bug(基於xp系統)。
一、DMP文件獲取設置
(1)在運行窗口中輸入 drwtsn32 -i ,並且點擊確定
WinDbg分析DMP文件方法完全攻略
(2)在(1)確定後彈出如下對話框
WinDbg分析DMP文件方法完全攻略
(3)在(2)彈出的確定框後點擊確定按鈕完成,將Dr.Watson設置為默認應用程序調試程序。
Dr.Watson系統自帶的程序。
(4)再次在運行窗口中輸入:drwtsn32,如下圖:
WinDbg分析DMP文件方法完全攻略
(5)點擊確定按鈕,在彈出的對話框中按照下列方式設置
WinDbg分析DMP文件方法完全攻略
(6) 點擊確定按鈕完成DMP文件設置。
二、關閉Dr.Watson方法
(1)打開注冊表
(2)在注冊表中進入主鍵[HKEY_LOCAL_MACHINE\SOFTWARE\Microsoft\WindowsNT\CurrentVersion\AeDebug],然後將「AUTO」鍵值設置為0如下圖:
WinDbg分析DMP文件方法完全攻略
三、Windbg下載地址
http://msdn.microsoft.com/en-us/windows/hardware/gg463009.aspx,下載完成後安裝
四、DMP文件獲取
(1) 用vs2010創建一個基於win32的程序,其源碼如下:
WinDbg分析DMP文件方法完全攻略
(2)我們知道在學習C++中整數不能跟0進行除運算,否則會引起程序崩潰。而(1)中就是編寫能觸發0的異常,導致程序結束運行的程序。編譯(1)中的程序,結果如下:
WinDbg分析DMP文件方法完全攻略
(3)運行(2)中test.exe程序 ,程序崩潰。如下圖:
WinDbg分析DMP文件方法完全攻略
(4) 按照《一、DMP文件獲取設置》步驟實現Dr.Watson設置為默認應用程序調試程序。
(5)再次運行運行(2)中test.exe程序 如下圖:
WinDbg分析DMP文件方法完全攻略
點擊確定完成dmp文件的生成。
(6)打開在(4)中設置dmp文件路徑。(本例中默認地址為:C:\Documents and Settings\All Users\Application Data\Microsoft\Dr Watson)如下圖:
WinDbg分析DMP文件方法完全攻略
其中user.dmp就是我們需要的dmp文件。
五、分析《四、DMP文件獲取》中獲取的DMP文件
㈣ 如何分析trace文件
Oracle-trace文件分析
如果一個系統的執行效率比較低,一個比較好的方法是通過跟蹤用戶的會話並且使用tkprof工具使用排序功能格式化輸出,從而找出有問題的SQL語句。
例如首先從os上利用top命令找到當前佔用cpu資源最高的一個進程的PID號9999;
然後在資料庫中根據PID號找到相應的sid和serial#
select s.sid,s.serial# from v$session s,v$process p where s.paddr=p.addr and p.spid='9999';
然後通過exec dbms_monitor.session_trace_enable(sid,serial#)開啟trace;
最後利用tkprof察看trace輸出。
開啟Trace文件輸出
可以通過以下方法開啟Trace文件輸出(需要ALTER SESSION系統許可權):
1) alter session/system set sql_trace=true
2) exec dbms_monitor.session_trace_enable/dbms_monitor.database_trace_enable
3) alter session set events '10046 trace name context forever, level 12'
Trace文件的位置
㈤ EXE文件用什麼工具可以分析
記事本就可以!不過你用記事本打開的都是亂碼,因為裡面的程序代碼都加密了!
㈥ 【理論知識】Dex文件結構分析
Dex文件就是Dalvik可執行文件,實際上它就是一個優化後的java位元組碼文件,因此構造這類文件需要先寫個java文件
Pino.java
然後編譯
之後得到了Pino.class文件,之後我們用dx工具,該工具需要安裝Android SDK才能有的工具
這樣就得到了一個dex文件了,之後我們利用010editor工具來進行分析。
那我們從頭開始分析
首先,我們來看一下Dex文件頭的結構體
這里stringIdSize的值為0E,10進制就是14,也就是說這個dex文件的字元串的個數為14個,文件偏移是70,我們到70的位置看一下
藍色部分就是DexStringId的內容了,每個字元串4位元組,總共14個,我們先看一下第一組「76 01 00 00」,這個值並不是字元串的具體內容,而是字元串所在位置的文件偏移,我們去看一下176h這個位置
藍色部分我一共選中了8個位元組,其中第一個位元組06代表的是之後多少個位元組屬於字元串,也就是「3C 69 6E 69 74 3E」,而最後一個位元組的00其實是字元串結尾的空位元組,但是計數的時候並沒有算上而已,總結一下這個dex文件中所有的字元串如下:
先看一下第一個4位元組的值「02 00 00 00 」,對照之前我們整理的字元串的表格,就是LPino;即Pino類型的,整理一下所有的類型,如下
這里數量就是3,位置偏移為C4,跟過去看下
藍色選中的部分就是所有的方法原型的結構了,這里又涉及到了一個新的數據結構
這三個屬性分別是第一個是方法聲明的字元串,第二個是方法的返回類型,第三個是方法的參數列表,其中DexTypeList是新的數據結構
回過頭來看一下藍色部分,12個位元組,第一個4位元組為8,說明DexStringId列表的索引是8,也就是V,第二個4位元組是5,也就是V,最後一個是0,也就是沒有參數,第一個方法就是void (),整理一下其他的如下:
也就是一個DexFieldId是8個位元組
classIdx的值是4,也就是Ljava/lang/System;,typeIdx的值是1,也就是Ljava/io/PrintStream;,nameIdx的值是C,也就是out,總結一下欄位如下:
也就是說每個DexMethodId佔8個位元組,第一個8位元組中的classIdx的值是0,也就是LPino;,protoIdx的值也是0,也就是void(),第三nameIdx也是0,也就是<init>,綜合起來就是void Pino.<init>(),整理一下所有的方法如下:
上面的數據結構28個位元組,內容的話看注釋也能看懂,我們直接上實例,在這里,classIdx是1,也就是LPino;,第二個accessFlags是1,也就是public,第三個superclassIdx是2,也就是父類是java.lang.Object,第四個interfacesOff是0,就是沒有,第五個是sourceFileIdx是7,也就是Pino.java,第六個是annotationOff,是0,沒有,第七個classData是22D,也就是DexClassData的偏移是22D,我們先來看看DexClassData的結構體
這裡面又涉及到了其他三種結構體
這里需要注意的一點的就是這里的u4並不是值4位元組,而是值uleb128的類型,具體是什麼可以自行網路。
現在我們再去22D的位置看看
從這里可以判斷姿態欄位0個,實例欄位0個,直接方法2個,虛方法0個。因為staticFields和instanceFields都是0個,所以直接從directMethods來看了,methodIdx為0,也就是void Pino.<init>(),accessFlags的值為「81 80 04」,這個是uleb128編碼的,轉換為16進制的話就是10001h,對照一下DexFile.h文件,知道方法是ACC_PUBLIC和ACC_CONSTRUCTOR
㈦ 數據分析方法
常見的分析方法有:分類分析,矩陣分析,漏斗分析,相關分析,邏輯樹分析,趨勢分析,行為軌跡分析,等等。 我用HR的工作來舉例,說明上面這些分析要怎麼做,才能得出洞見。
01) 分類分析
比如分成不同部門、不同崗位層級、不同年齡段,來分析人才流失率。比如發現某個部門流失率特別高,那麼就可以去分析。
02) 矩陣分析
比如公司有價值觀和能力的考核,那麼可以把考核結果做出矩陣圖,能力強價值匹配的員工、能力強價值不匹配的員工、能力弱價值匹配的員工、能力弱價值不匹配的員工各佔多少比例,從而發現公司的人才健康度。
03) 漏斗分析
比如記錄招聘數據,投遞簡歷、通過初篩、通過一面、通過二面、通過終面、接下Offer、成功入職、通過試用期,這就是一個完整的招聘漏斗,從數據中,可以看到哪個環節還可以優化。
04) 相關分析
比如公司各個分店的人才流失率差異較大,那麼可以把各個分店的員工流失率,跟分店的一些特性(地理位置、薪酬水平、福利水平、員工年齡、管理人員年齡等)要素進行相關性分析,找到最能夠挽留員工的關鍵因素。
05) 邏輯樹分析
比如近期發現員工的滿意度有所降低,那麼就進行拆解,滿意度跟薪酬、福利、職業發展、工作氛圍有關,然後薪酬分為基本薪資和獎金,這樣層層拆解,找出滿意度各個影響因素裡面的變化因素,從而得出洞見。
06) 趨勢分析
比如人才流失率過去12個月的變化趨勢。
07)行為軌跡分析
比如跟蹤一個銷售人員的行為軌跡,從入職、到開始產生業績、到業績快速增長、到疲憊期、到逐漸穩定。
㈧ 拿到招標文件後,如何分析招標文件的重點
招標文件內容一般包括如招標公告(或投標邀請書)、投標人須知、評標辦法、合同條款及格式、圖紙、工程量清單、技術標准和要求、投標文件格式等內容,需要重點關注每一項的要求和重點事項。
要快速准確分析完一份招標文件需花費較多時間,現在除了人工手動分析外,也可以藉助標事通招標文件解析功能,幫助投標人拿到招標文件後第一時間能夠實現對招標文件全面解析,會提示招標文件關鍵信息,進行結構化節點處理,建立快速導航,實現便捷閱讀;同時在文件中明確標注出招標星號項、廢標項信息,保障投標人的投標合規不漏項。可以將大量減少投標人解讀文件的時間成本,提高解讀文件的效率,幫助投標人搶佔先機。
擴充資料:
什麼是招標文件
招標文件的組成內容包括招標公告(或投標邀請書)、投標人須知、評標辦法、合同條件及格式、工程量清單、圖紙、技術標准和要求、投標文件格式和投標人須知前附表規定的其他材料。具體來說,就是《招標投標法》第十八條:招標采購單位應當根據招標項目的特點和需求編制招標文件。
招標文件包括以下內容:
(一)投標邀請;
(二)投標人須知(包括密封、簽署、蓋章要求等);
(三)投標人應當提交的資格、資信證明文件;
(四)投標報價要求、投標文件編制要求和投標保證金交納方式;
(五)招標項目的技術規格、要求和數量,包括附件、圖紙等;
(六)合同主要條款及合同簽訂方式;
(七)交貨和提供服務的時間;
(八)評標方法、評標標准和廢標條款;
(九)投標截止時間、開標時間及地點;
(十)省級以上財政部門規定的其他事項。
不同的行業,不同的招標項目,其對應的招標文件組成內容可能有所不同,但是實際的招標文件必包含:公開招標公告、招標需求、投標人須知、評標方法和標准、合同主要條款、投標文件格式。