1. 文本相似度計算(一):距離方法
距離方法
1、文本的表示
1.1、VSM表示
1.2、詞向量表示
1.3、遷移方法
2、距離計算方法
2.1、歐氏距離 (L 2 范數)、曼哈頓距離 (L 1 范數)、 明氏距離
2.2、漢明距離
2.3、Jaccard相似系數、 Jaccard距離( 1-Jaccard相似系數)
2.4、餘弦距離
2.5、皮爾森相關系數
2.5、編輯距離
場景舉例:
1)計算 Query 和文檔的相關度、2)問答系統中計算問題和答案的相似度、3)廣告系統中計算 Query 和廣告詞的匹配程度、4)推薦系統中 要給某個用戶推薦某件物品,計算這件物品和這個用戶興趣的相似度
更多地,判斷兩個query表達的意思是否相同也可以看作屬於文本相似度的范疇。
相似度一定是指兩個東西(姑且分別用 P 和 Q 表示)的相似程度,而這兩個東西可以是任何形式的,例如文本、圖片、聲音等等。最終要計算相似度,那必須把這些東西抽象成數學形式,說白了 ,就是怎麼用數字把 這些 東西表示出來, 一 般會表示成向量或者矩陣。那如果表示成了向量, 計算相似度就可以使用大家在數學課上學的知識了。
這里希望可以比較清晰全面地介紹一下文本相似度的計算方法,目前來說,大致分為距離、hash、深度學習三種方法。
這些所謂的距離其實都是一些 固定 的公式而己,關鍵在於如何應用。實際應用中可以使用tf-idf、word2vec、LDA等方法實現相似度的距離計算。
很多相似度的第一步其實都是文本的表示問題,即把文本用數字的形式表示出來,這一步目前主要有 VSM(vector space model) ,和 詞向量表示 兩種方式。
這種方法其實靈活性較大,可以基於分詞,對於中文基於字元或n-grams的表示也有一定效果。
1) tf-idf/bow表示 :在給定文檔集合C和詞典D的條件下,將某篇文檔通過詞袋模型表示成一個個的詞,而後根據 TF-IDF 為每個詞計算出一個實數值;
由於詞典D的大小為M,因此 將這篇文檔轉化成一個M維向量 ,如果詞典中某個詞未出現在文檔中,則這個詞的在向量中對應的元素為0,若某個詞出現在文檔中,則這個詞在向量中 對應的元素值為這個詞的tf-idf值 。這樣,就把文檔表示成向量了,而這就是 向量空間模型(vector space model) 。從這里也可看出:向量空間模型並沒有catch住詞(term)與詞(term)之間的關系,它假設各個term之間是相互獨立的。
而有了文檔向量,就可以計算文檔之間的相似度了。
這種表示方法與詞典大小相關,往往會使文本的表示比較稀疏且高維,可以通過PCA緩解這一問題。
2) 主題模型表示 :實際上VSM可以作為一種文本表示的思想:把對文本內容的處理簡化為向量空間中的向量運算,並且它以空間上的相似度表達語義的相似度。
在這個角度,使用LDA,LSA等主題模型同樣可以完成文本的VSM表示:將文本表示為topic的向量空間。
這種方法維度可自定義(topic數),且不稀疏,但是可能存在文本對之間距離相似度分布空間密集的情況導致效果不佳。
這種方法一般直接將文本分詞後 將詞向量相加除以句子長度就可得到 。也可以使用如 smooth inverse frequency的加權方法 將詞向量加權:每個詞嵌入都由a/(a + p(w))進行加權,其中a的值經常被設置為0.01,而p(w)是詞語在語料中預計出現的頻率。
一般來說word2vec的詞向量方法 強於glove方法 ,而對於word2vec,cbow方法強於skip-gram(具體原因並不復雜,感興趣可以從訓練方法角度思考一下~)
更多地,上述文本表示方法其實會損失或無法捕捉到語義信息,通過bert、elmo等預訓練方法的表示更加靠譜,也可以用於無監督的文本相似度計算。
歐氏距離:
曼哈頓距離:
表示兩個(相同長度)字對應位不同的數量,我們以d(x,y)表示兩個字x,y之間的漢明距離。對兩個字元串進行異或運算,並統計結果為1的個數,那麼這個數就是漢明距離。
(1)雅各相似系數:
兩個集合A和B的交集元素在A,B的並集中所佔的比例,稱為兩個集合的傑卡德相似系數,用符號J(A,B)表示。
傑卡德相似系數是衡量兩個集合的相似度一種指標。
實際使用中,可以用去重與不去重兩種方式計算,更多地,可以轉換為交集的tf-idf值之和除以並集的tf-idf值之和
(2) 傑卡德距離
與傑卡德相似系數相反的概念是傑卡德距離(Jaccard distance)。
傑卡德距離可用如下公式表示:
傑卡德距離用兩個集合中不同元素占所有元素的比例來衡量兩個集合的區分度。
夾角餘弦取值范圍為[-1,1]。夾角餘弦越大表示兩個向量的夾角越小,夾角餘弦越小表示兩向量的夾角越大。當兩個向量的方向重合時夾角餘弦取最大值1,當兩個向量的方向完全相反夾角餘弦取最小值-1。文本的相似度一般取絕對值。
皮爾森相關系數在推薦系統用的較多,它的公式如下 :
指兩個字元串,由一個變成另一個所需的最少的編輯次數,這個編 就包括替換、插入、刪除操作。
文本相似度的計算一般使用VSM/cbow+cos距離/歐式距離,或jaccard距離
Dice 系數可以計算兩個字元串的相似度:Dice(s1,s2)=2*comm(s1,s2)/(leng(s1)+leng(s2))。
https://blog.csdn.net/weixin_43526820/article/details/89883640?spm=1001.2014.3001.5501
2. 如何進行相似度的計算,主要用什麼方式
如何計算句子的語義相似度,很容易想到的是向量空間模型(VSM)和編輯距離的方法,比如A:「我爸是李剛」,B:「我兒子是李剛」,利用VSM方法A(我,爸,是,李剛)B(我,兒子,是,李剛),計算兩個向量的夾角餘弦值,不贅述;編輯距離就更好說了將「爸」,「兒子」分別替換掉,D(A,B)= replace_cost;
這是兩種相當呆的方法,屬於baseline中的baseline,換兩個例子看一下就知道A:「樓房如何建造?」,B:「高爾夫球怎麼打?」,C:「房子怎麼蓋?」,如果用VSM算很明顯由於B,C中有共同的詞「怎麼」,所以BC相似度高於AC;編輯距離同理;
解決這種問題方法也不難,只要通過同義詞詞典對所有句子進行擴展,「如何」、「怎麼」,「樓房」、「房子」都是同義詞或者近義詞,擴展後再算vsm或者edit distance對這一問題即可正解.這種方法一定程度上解決了召回率低的問題,但是擴展後引入雜訊在所難免,尤其若原句中含有多義詞時.例如:「打醬油」、「打毛衣」.在漢字中有些單字詞表達了相當多的意義,在董振東先生的知網(hownet)中對這種類型漢字有很好的語義關系解釋,通過hownet中詞語到義元的樹狀結構可以對對詞語粒度的形似度進行度量.
問題到這里似乎得到了不錯的解答,但實際中遠遠不夠.VSM的方法把句子中的詞語看做相互獨立的特徵,忽略了句子序列關系、位置關系對句子語義的影響;Edit Distance考慮了句子中詞語順序關系,但是這種關系是機械的置換、移動、刪除、添加,實際中每個詞語表達了不同的信息量,同樣的詞語在不同詞語組合中包含的信息量或者說表達的語義信息大不相同.What about 句法分析,計算句法樹的相似度?這個比前兩種方法更靠譜些,因為句法樹很好的描述了詞語在句子中的地位.實際效果要待實驗證實.
對了,還有一種方法translation model,IBM在機器翻譯領域的一大創舉,需要有大量的語料庫進行訓練才能得到理想的翻譯結果.當然包括中間詞語對齊結果,如果能夠利用web資源建立一個高質量的語料庫對兩兩相似句對通過EM迭代詞語對齊,由詞語對齊生成句子相似度,這個.想想還是不錯的方法!
3. 論文查重的標準是什麼
1.以段落計,低於5%的抄襲或引用是檢測不出來的,假如檢測段落1有10000字,那麼引用單篇文獻500字以下,是不會被檢測出來的。
2.知網論文檢測的條件是連續13個字相似或抄襲都會被紅字標注,但是要滿足上面的前提才會標紅。 意思就是,段落重復超過5%,然後連續13字相似就算抄襲。
更多知網查重規則可見:揭秘:知網論文查重的規則及檢測原理
然後PaperPass的計算公式是:(句子1相似度+句子2相似度+...+句子n相似度)/ n
句子相似度范圍0.0~1.0 綠色句子相似度按照0計算
句子相似度超過40%就會計算重復率。
意思就是把文章分成若干個句子,13個字裡面,有5個字相同,這個句子就會計算相似度。
還有一點就是,PaperPass的資料庫比知網小。
隨著科技的不斷進步,人們接觸「高等知識」的方式越來越多,也有越來越多的人開始撰寫論文,不管是即將畢業的大學生需要寫的畢業論文,還是非畢業生撰寫的自選論文或者期刊論文。而提到論文就不得不提到論文重查檢測,對於絕大多數人來說,論文查重率一定是一個頭疼的問題,那麼論文查重檢測的內容和重查標準是什麼?
一、論文重查檢測內容
為了杜絕抄襲、代寫、剽竊等學術不端的現象出現,要求論文查重率是必要的措施。查重系統在進行查重主要檢測摘要、正文、結尾、聲明、目錄等文字形式的內容。但論文並不僅僅是由文字構成的,一篇完整且質量高的論文還應包括數據、圖表、圖片或者表格等內容,這部分非文字形式的內容多數情況下是不做要求的,而一些要求較高的高校或期刊也會對非文字內容進行查重。
二、論文重查的標准
大多數高校對本科生畢業論文的查重率要求為不超過30%,要求比較嚴格的高校會把查重率提高到20%,碩士與博士的論文重查標准會相對提高很多,大多數高校對碩士論文要求查重率在10%至30%之間,博士論文要求查重率5%至20%之間。而對於職稱期刊論文來說,高級核心期刊論文對重查要求最高,其標准為小於8%至15%。
三、論文重查檢測操作
論文可以通過學校內部查重系統進行查重,學生只需要進入查重系統,將自己信息錄入後上傳論文即可,不過校外查重價格會相對高一些,學生可以使用Paperfree論文重查系統進行對初稿的查重,這個系統的查重結果同樣也具有權威性,而且提供幾萬字免費查重機會。