『壹』 協同過濾演算法
用戶行為數據在網站上最簡單的存在形式就是日誌,比如用戶在電子商務網站中的網頁瀏覽、購買、點擊、評分和評論等活動。 用戶行為在個性化推薦系統中一般分兩種——顯性反饋行為(explicit feedback)和隱性反饋 行為(implicit feedback)。顯性反饋行為包括用戶明確表示對物品喜好的行為。網站中收集顯性反饋的主要方式就是評分和喜歡/不喜歡。隱性反饋行為指的是那些不能明確反應用戶喜好 的行為。最具代表性的隱性反饋行為就是頁面瀏覽行為。 按照反饋的明確性分,用戶行為數據可以分為顯性反饋和隱性反饋,但按照反饋的方向分, 又可以分為正反饋和負反饋。正反饋指用戶的行為傾向於指用戶喜歡該物品,而負反饋指用戶的 行為傾向於指用戶不喜歡該物品。在顯性反饋中,很容易區分一個用戶行為是正反饋還是負反饋, 而在隱性反饋行為中,就相對比較難以確定。
在利用用戶行為數據設計推薦演算法之前,研究人員首先需要對用戶行為數據進行分析,了解 數據中蘊含的一般規律,這樣才能對演算法的設計起到指導作用。
(1) 用戶活躍度和物品流行度
(2) 用戶活躍度和物品流行度的關系
一般認為,新用戶傾向於瀏覽熱門的物品,因為他 們對網站還不熟悉,只能點擊首頁的熱門物品,而老用戶會逐漸開始瀏覽冷門的物品。如果用橫坐標表示用戶活躍度,縱坐標表示具有某個活躍度的所有用戶評過分的物品的平均流行度。圖中曲線呈明顯下 降的趨勢,這表明用戶越活躍,越傾向於瀏覽冷門的物品。
僅僅基於用戶行為數據設計的推薦演算法一般稱為協同過濾演算法。學術界對協同過濾演算法進行了深入研究,提出了很多方法,比如基於鄰域的方法(neighborhood-based)、隱語義模型 (latent factor model)、基於圖的隨機遊走演算法(random walk on graph)等。在這些方法中, 最著名的、在業界得到最廣泛應用的演算法是基於鄰域的方法,而基於鄰域的方法主要包含下面兩種演算法。
基於用戶的協同過濾演算法 :這種演算法給用戶推薦和他興趣相似的其他用戶喜歡的物品
基於物品的協同過濾演算法: 這種演算法給用戶推薦和他之前喜歡的物品相似的物品
基於鄰域的演算法是推薦系統中最基本的演算法,該演算法不僅在學術界得到了深入研究,而且在 業界得到了廣泛應用。基於鄰域的演算法分為兩大類,一類是基於用戶的協同過濾演算法,另一類是 基於物品的協同過濾演算法。現在我們所說的協同過濾,基本上就就是指基於用戶或者是基於物品的協同過濾演算法,因此,我們可以說基於鄰域的演算法即是我們常說的協同過濾演算法
(1) 基於用戶的協同過濾演算法(UserCF)
基於用戶的協同過濾演算法的基本思想是:在一個在線個性化推薦系統中,當一個用戶A需要個性化推薦 時,可以先找到和他有相似興趣的其他用戶,然後把那些用戶喜歡的、而用戶A沒有聽說過的物品推薦給A。
Ø 從上面的描述中可以看到,基於用戶的協同過濾演算法主要包括兩個步驟。 第一步:找到和目標用戶興趣相似的用戶集合。 第二步: 找到這個集合中的用戶喜歡的,且目標用戶沒有聽說過的物品推薦給目標用戶。
這里,步驟1的關鍵是計算兩個用戶的興趣相似度,協同過濾演算法主要利用行為的相似度計算興趣的相似度。給定用戶u和用戶v,令N(u)表示用戶u曾經有過正反饋的物品集合,令N(v) 為用戶v曾經有過正反饋的物品集合。那麼我們可以通過以下方法計算用戶的相似度:
基於餘弦相似度
(2) 基於物品的協同過濾演算法(itemCF)
與UserCF同理
(3) UserCF和itemCF的比 較
首先我們提出一個問題,為什麼新聞網站一般使用UserCF,而圖書、電商網站一般使用ItemCF呢? 首先回顧一下UserCF演算法和ItemCF演算法的推薦原理。UserCF給用戶推薦那些和他有共同興 趣愛好的用戶喜歡的物品,而ItemCF給用戶推薦那些和他之前喜歡的物品類似的物品。從這個算 法的原理可以看到,UserCF的推薦結果著重於反映和用戶興趣相似的小群體的熱點,而ItemCF 的推薦結果著重於維系用戶的歷史興趣。換句話說,UserCF的推薦更社會化,反映了用戶所在的小型興趣群體中物品的熱門程度,而ItemCF的推薦更加個性化,反映了用戶自己的興趣傳承。 在新聞網站中,用戶的興趣不是特別細化,絕大多數用戶都喜歡看熱門的新聞。個性化新聞推薦更加強調抓住 新聞熱點,熱門程度和時效性是個性化新聞推薦的重點,而個性化相對於這兩點略顯次要。因 此,UserCF可以給用戶推薦和他有相似愛好的一群其他用戶今天都在看的新聞,這樣在抓住熱 點和時效性的同時,保證了一定程度的個性化。同時,在新聞網站中,物品的更新速度遠遠快於新用戶的加入速度,而且 對於新用戶,完全可以給他推薦最熱門的新聞,因此UserCF顯然是利大於弊。
但是,在圖書、電子商務和電影網站,比如亞馬遜、豆瓣、Netflix中,ItemCF則能極大地發 揮優勢。首先,在這些網站中,用戶的興趣是比較固定和持久的。一個技術人員可能都是在購買 技術方面的書,而且他們對書的熱門程度並不是那麼敏感,事實上越是資深的技術人員,他們看 的書就越可能不熱門。此外,這些系統中的用戶大都不太需要流行度來輔助他們判斷一個物品的 好壞,而是可以通過自己熟悉領域的知識自己判斷物品的質量。因此,這些網站中個性化推薦的 任務是幫助用戶發現和他研究領域相關的物品。因此,ItemCF演算法成為了這些網站的首選演算法。 此外,這些網站的物品更新速度不會特別快,一天一次更新物品相似度矩陣對它們來說不會造成 太大的損失,是可以接受的。同時,從技術上考慮,UserCF需要維護一個用戶相似度的矩陣,而ItemCF需要維護一個物品 相似度矩陣。從存儲的角度說,如果用戶很多,那麼維護用戶興趣相似度矩陣需要很大的空間, 同理,如果物品很多,那麼維護物品相似度矩陣代價較大
下表是對二者的一個全面的表較:
『貳』 什麼叫領域和鄰域
1、首先,領域是集合的一種概念,也就是說,領域是無限數值的一個集合,集合的性質領域都是滿足的,例如:x0∈(x0-δ,x0+δ);
2、其次,領域必定是確定以某個變數為中心的集合,因為領域是從微積分中發展過來的,因此,領域主要的研究對象並不是像集合那樣,集合是研究集合中元素及其構成的,而領域研究的是以微積分為方向的微小變數Δx的;領域和集合所屬研究對象有不停;
3、再次,對於形如:y=f(x)的一元函數,在x的微小變數Δx下,y的變化趨勢如何,即:Δy如何,這是微積分所研究的,但是為了考察Δx,必須要將其置於某個集合中,這個集合隨屬x的定義域,但是卻是以x0為中心的一個微小集合,即:(x0-δ,x0+δ),也可以說,以x0為中心,δ>0為半徑的一個微小集合域,這就是領域!
4、對於二元函數和多元函數,領域的概念也是類似!
鄰域,是指集合上的一種基礎的拓撲結構。有鄰域公理(鄰域公理是現代數學拓撲結構的基礎概念)、開鄰域和閉鄰域、去心鄰域等的研究著作。
中文名
鄰域
外文名
neighbourhood
相關應用
鄰域公理
相關概念
去心鄰域、開鄰域、閉鄰域
適用范圍
數理科學
快速
導航
鄰域公理
初等定義
鄰域是一個特殊的區間,以點a為中心點任何開區間稱為點a的鄰域,記作U(a)。
點a的δ鄰域:設δ是一個正數,則開區間(a-δ,a+δ)稱為點a的δ鄰域,記作,點a稱為這個鄰域的中心,δ稱為這個鄰域的半徑。
由於相當於,因此,表示與點a的距離小於δ的一切點x的全體。
點a的去心δ鄰域:有時用到的鄰域需要把鄰域中心去掉,點a的δ鄰域去掉中心a後,稱為點a的去心δ鄰域,記作(表達方法是在U上標一個小的0),即,這里表示。有時把開區間(a - δ, a)稱為a的左δ鄰域,把開區間(a, a + δ)稱為a的右δ鄰域。[1]
『叄』 鄰域的表示方法
U 鄰域 數學分析的定義 以a為中心的任何開區間稱為點a的鄰域,記作U(a) 設δ是任一正數,則在開區間(a-δ,a+δ)就是點a的一個鄰域,這個鄰域稱為點a的δ鄰域,記作U(a,δ),即U(a,δ)={x|a-δ<x<a+δ}。點a稱為這鄰域的中心,δ稱為這鄰域的半徑。 a的δ鄰域去掉中心a後,稱為點a的去心δ鄰域,有時把開區間(a-δ,a)稱為a的左δ鄰域,把開區間(a,a+δ)稱為a的右δ鄰域。 拓撲學的定義 設A是拓撲空間(X,τ)的一個子集,點x∈A。如果存在集合U,滿足①U是開集,即U∈τ,②點x∈U,③U是A的子集,則稱點x是A的一個內點,並稱A是點x的一個鄰域。若A是開(閉)集,則稱為開(閉)鄰域。 ----詳見 http://ke..com/view/348547.htm
『肆』 鄰域和去心鄰域分別是什麼,怎麼理解
鄰域指的是是無限小概念當會用到的, 即可以無限地接近的一個范圍。強調的內容是可以無限小,范圍。
去心鄰域指的是鄰域內不包括某一個點 。
舉個例來說,求0 的鄰域是可以包括 0在內 的。 但是求 0 的去心鄰域是,是不包括 0 的在內的。
拓展資料:
初等定義例子
領域
在鄰域
去心鄰域
點a的δ鄰域去掉中心a後,稱為點a的去心δ鄰域,表達方法是在U上標一個小的0。有時把開區間(a - δ, a)稱為a的左δ鄰域,把開區間(a, a + δ)稱為a的右δ鄰域。
『伍』 數字圖像處理中兩點的4鄰域距離怎樣計算
D4距離(城市距離)
像素p(x,y)和q(s,t)之間的D4距離定義為:
D4(p,q) = |x – s| + |y – t|
通俗地來理解,p和q是一座大城市裡面的兩座房子,在這城市裡面的大街上走路只能直走或者90度轉彎,從p走到q經過的距離就是城市距離。
『陸』 「鄰域」的表示方法是什麼
U
鄰域
是集合上的一種基礎的拓撲結構。
定義
點a的δ鄰域:設δ是一個正數,則開區間(a-δ,a+δ)稱為點a的δ鄰域,記作
,點a稱為這個鄰域的中心,δ稱為這個鄰域的半徑。
由於
相當於
,因此,
表示與點a的距離小於δ的一切點x的全體。
『柒』 「鄰域」的表示方法是什麼
鄰域是一個特殊的區間,以點a為中心點任何開區間稱為點a的鄰域,記作U(a)。
點a的δ鄰域:設δ是一個正數,則開區間(a-δ,a+δ)稱為點a的δ鄰域,記作
(7)用戶鄰域的計算方法擴展閱讀
鄰域公理是現代數學拓撲結構的基礎概念,是定義拓撲的五套等價公理之一。這套公理直接定義了空間上的整套領域系,而非簡單定義某個點的鄰域。映射U即是將x映射至x鄰域組成的集合。
U1:若A是x的鄰域,則x屬於A。這是顯然的。
U2:若A和B都是x的鄰域,則A和B的交集也是x的鄰域。即鄰域對於有限交運算封閉。
U3:若A是x的鄰域,則所有包含A的集合都是x的鄰域。
U4:若A是x的鄰域,則存在一個被A包含的集合B(可以相等),使得B是其中所有點的鄰域。換言之,若x有一個鄰域,那麼一定可以將其縮小,縮小到它是其中所有點的鄰域。
更關鍵的,這樣的鄰域當且僅當它是X中的開集,這也是鄰域公理為何等價於開集公理,從而可以通過它定義X上拓撲的原因。