❶ 如何使用spss進行交叉列聯表分析
1、首先我們打開之前導入的spps文件。
❷ bilibili(1)-爬取視頻信息進行數據分析
感謝@雄哥和@遜哥的幫助才得以完成這篇文章,不然,還不知怎麼應對IP限制。
項目地址: https://github.com/UranusLee/bilibili_spider
通過chrome可以看出來B站視頻統計信息是通過js載入,打開開發者工具可以到stat?aid=31的json文件。
再分析json文件的載入方式,基本可以得到所需要的headers參數。
因為之前一直都在爬取豆瓣、知乎、拉勾這些有特殊headers的網站,所以,為了省事,還是全部headers都加上。
進行爬取的時候,發生了一點問題,通過不斷測試,基本可以斷定B站有IP訪問限制,基本上是1分鍾150次以下不會封IP,封閉IP一次為5分鍾,所以考慮用代理IP,拿著買好的穩定的IP,刻不容緩的加入進來。
總共爬取下來710多W條數據,用了三四天的時間,期間網路斷掉,或者IP地址停用,一直耽擱,之所以不準備繼續下去是因為數據還准備做一個B站每年數據分析,所以選用了aid=11883351這條數據作為截止可以比較好的對應上每年7月初的一個數據對比分析
發現有播放數為-1的值,總共占數據總量的2%,故而刪除。
可以看出基本上播放量,彈幕,評論回復,收藏,硬幣,分享基本就是長尾數據,有大量的小數值的數據,但是整體的平均值受極值的影響較大。相比較而言view播放量更加有研究性。
1.播放量佔比分析
總共分為<500,500-1000,1000-5000,5000-20000,>20000。
播放量整體還是大量的淹沒視頻,播放量小於500的達到了整體視頻的48.8%,而播放量20000以上的只佔到5.4%,按照「二八原則」,視頻達到3338以上的播放量即達到B站視頻實際效用的界限。
2.分年份分析B站視頻增長速度
以每年7月份為周期分析
通過aid可以查到所有爬下的數據所屬的時間,再按照概率分析大概的時間就可以得出每一年7月份的視頻量。
整體的視頻數量增長速度實際上是大致按照每年翻倍的速度來增長,整體增長曲線拋開10-11年,整體增長平和。
2010-2011年之間,必定是發生了事才會導致視頻量突增,才會導致視頻總量增長率超過800%。通過查詢,基本確實如之前所假設一樣,10年因為Ac fun(A站)確實發生了嚴重的幾次彈幕沖突,A站關閉了彈幕系統,加上很多人打出「ACG滾出ac」的標語,大量的A站up主轉移至B站,開始了B站的逆襲。
14年一年視頻增長率唯一一次跌至94%,是因為14年動畫版權問題,禁止了私自上傳動畫,視頻量比預期下跌了大概8W左右。今年更加誇張的是2018年還沒有到07月份,視頻總量已經達到2200W左右。
3.參與率分析用戶活躍度
彈幕成本是最低的,大概平均27.8人次觀看,就會出現一次彈幕(包括非會員的觀看次數,但是無法發彈幕,提高了彈幕成本),分享成本不僅僅是會員,非會員沒有登陸也可以分享,這確實42.58人次的成本僅僅高於彈幕成本,說明B站整體視頻風格更加多元化。121.58的投幣成本受限於B站的投幣系統,B幣少,並且獲得有難度,導致投幣成本遠高於其他幾項。
4.投幣分析
B站投幣有「不牛不投,不服不投」的潛性規則,往往一個視頻的投幣量可以反應視頻的質量和B站的流行趨勢。
排名第一的是 【嗶哩嗶哩2017拜年祭】 ,94.1W投幣
排名第二的是 【古箏】千本櫻——你可見過如此兇殘的練習曲 ,79.6W投幣
排名第三的是 【嗶哩嗶哩2016拜年祭】 ,77.2W投幣
然後是敖廠長的兩連擊
【敖廠長】讓你耳朵懷孕的FC游戲 ,74.6W投幣
【敖廠長】打臉!魂斗羅水下八關存在 ,73.0W投幣
其實可以看出前三名中,兩次拜年祭以及用戶群體的自發投幣,整個拜年祭已經成為B站文化的一部分,是每年最核心的一部分。當然也不缺乏敖廠長這種良心up主,每一次對於過往游戲的解疑和介紹,還有那無所不能的哥們,宅男但不失真心,牛逼但非常人親。
文化的多元化才是整個B站撐起一片天的本質原因,我曾經在B站中過《極樂凈土》的毒,看過外國人在中國成了網紅,聽過古箏彈奏魂斗羅、彈奏日本電音。這是一個大熔爐,每個人都可以找到自己喜歡的東西,我突然想起了廣告模塊的一個高分視頻,彈幕量只有300,但是播放量有2000多萬次,我不知道是B站運營人員清空了一部分的彈幕和評論,但是一個廣告在B站,在這個無數個平時看都不看廣告的年輕人,能夠看上2000多萬次,幾乎人均一次。我才覺得我真正的知道。
----------------------------------------------------分割線-------------------------------------------
數據分析的部分有點意猶未盡,今天實在是困了,今天稍晚或者明天會繼續對於B站各個模塊繼續進行深挖,包括彈幕的語義分析、通過彈幕揣摩劇情、哪種視頻可以火、up主的影響力、視頻質量建模等。
❸ 如何使用spss進行交叉列聯表分析
SPSS提供了多種適用於不同類型數據的相關系數表達,這些相關性檢驗的零假設都是:行和列變數之間相互獨立,不存在顯著的相關關系。根據SPSS檢驗後得出的相伴概率(Concomitant Significance)判斷是否存在相關關系。如果相伴概率小於顯著性水平0.05,那麼拒絕零假設,行列變數之間彼此相關;如果相伴概率大於顯著性水平0.05,那麼接受原假設,行列變數之間彼此獨立。
在交叉列聯表分析中,SPSS所提供的相關關系的檢驗方法主要有以下3種:
(1)卡方(χ2)統計檢驗:常用於檢驗行列變數之間是否相關。計算公式為:
在該對話框中,用戶可以指定列聯表的輸出排列順序。對話框中各選項的具體意義如下:
在行序(Row Order)欄中有如下兩個選項:
升序(Ascending):系統默認,以升序顯示各變數值;
降序(Descending):以降序顯示各變數值。
用戶在該對話框中進行選擇後,單擊【繼續】(Continue)按鈕,即可返回"交叉表"主對話框。
在"交叉表"對話框中單擊【確定】(OK)按鈕,可在輸出窗口中得到數據概述、交叉列聯表、卡方檢驗表、交叉分組下頻率分布柱形圖、相對危險性估計等圖表。