《電子技術(shù)應用》
您所在的位置:首頁 > 通信與網(wǎng)絡 > 設計應用 > 融合多特征的產(chǎn)品垃圾評論識別
融合多特征的產(chǎn)品垃圾評論識別
來源:微型機與應用2012年第22期
吳 敏1,何 瓏2
(1.福州大學 數(shù)學與計算機學院,福建 福州350108;2.福州大學 信息化建設辦公室, 福建 福
摘要: 針對JINDAL N等人新近提出的利用邏輯回歸模型識別產(chǎn)品垃圾評論的檢測方法中使用過多產(chǎn)品評論特征這一問題,分析了解決方法,并提出對特征進行顯著性檢驗。通過對亞馬遜數(shù)據(jù)集的實驗結(jié)果表明,采用顯著性特征建立的回歸模型優(yōu)于所有特征建立的模型。新模型不僅解決了上述問題,減少了計算量,而且整體性能不變,這表明以顯著性特征建模有助于提高模型的檢測質(zhì)量。
Abstract:
Key words :

摘  要: 針對JINDAL N等人新近提出的利用邏輯回歸模型識別產(chǎn)品垃圾評論的檢測方法中使用過多產(chǎn)品評論特征這一問題,分析了解決方法,并提出對特征進行顯著性檢驗。通過對亞馬遜數(shù)據(jù)集的實驗結(jié)果表明,采用顯著性特征建立的回歸模型優(yōu)于所有特征建立的模型。新模型不僅解決了上述問題,減少了計算量,而且整體性能不變,這表明以顯著性特征建模有助于提高模型的檢測質(zhì)量。
關(guān)鍵詞: 邏輯回歸;產(chǎn)品垃圾評論;顯著性檢驗

    近幾年,隨著互聯(lián)網(wǎng)的發(fā)展,人們越來越喜歡在網(wǎng)絡上表達自己的觀點。他們可以在購買商品的同時在各大商業(yè)網(wǎng)站、論壇以及博客發(fā)表評論。這些觀點信息對其他潛在用戶至關(guān)重要。
    由于網(wǎng)絡的開放性,人們可以在網(wǎng)站上任意書寫評論,這導致評論的質(zhì)量低下,甚至產(chǎn)生垃圾評論,即由一些用戶蓄意發(fā)表的不切實際、不真實的、有欺騙性質(zhì)的評論,其目的是為了提升或者詆毀某一產(chǎn)品或某一類產(chǎn)品的聲譽,從而誤導潛在消費者,或者干擾評論意見挖掘和情感分析系統(tǒng)的分析結(jié)果[1]。正面評論可以提高產(chǎn)品銷售額,還可以提高公司的名聲,負面評論則可以詆毀競爭對手。這就為垃圾評論發(fā)表者提供了足夠的動機。2007年,JINDAL N和Liu Bing首次對垃圾評論檢測進行相關(guān)研究[1-2]。
1 相關(guān)工作
    目前,在線觀點的分析已經(jīng)成為一個熱門的研究主題。然而,現(xiàn)有工作主要集中在利用自然語言處理和數(shù)據(jù)挖掘技術(shù)來抽取和總結(jié)評論觀點[3-4],對評論的特征以及評論者的行為研究較少,而這些卻是觀點挖掘的必要前提。
    目前的研究工作中已經(jīng)取得了很多成果,JINDAL N等[1-2]將垃圾評論分為三類:欺騙性的評論(Untruthful Opinion);不相關(guān)的評論(Reviews on Brands Only);非評論信息(Non-Reviews)。之后,他們收集了評論文本、評論發(fā)表者和產(chǎn)品3個方面共36個特征,采用人工標記訓練集的方法,應用Logistic回歸建立機器學習模型來識別第二類和第三類垃圾評論;對于第一類垃圾評論,則通過識別重復性的評論,將重復性評論作為正向的訓練集建立機器學習模型來識別。此方法取得了不錯的效果,但使用的特征過多,不僅增加了計算量,而且可能使得模型不夠穩(wěn)定。因此,本文利用重復評論建立模型,提出對特征進行顯著性檢驗,以獲取的顯著性特征建立更加穩(wěn)定的回歸模型。實驗結(jié)果表明,新模型不僅有效地減少了計算量,而且效果優(yōu)于所有特征建立的模型。
2 融合多特征的產(chǎn)品垃圾評論識別方法
2.1 垃圾評論檢測

    在JINDAL N和Liu Bing的工作中,他們將垃圾評論分為三類,本文主要致力于檢測第一類垃圾評論,即欺騙性的評論(Untruthful Opinion)。
2.1.1 檢測重復評論
    對于第二和第三類垃圾評論,可以通過評論內(nèi)容來識別。然而,僅僅通過人工閱讀一個評論來判別它是否具有欺騙性是極其困難的,這是由于垃圾評論發(fā)表者可以通過仔細偽裝使評論看起來和其他正常評論一樣。
    因此,本文利用JINDAL N等[2]提出的以下3種重復評論(包括近似重復)來檢測第一類垃圾評論:(1)不同用戶對同一產(chǎn)品發(fā)表的重復評論;(2)相同用戶對不同產(chǎn)品發(fā)表的重復評論;(3)不同用戶對不同產(chǎn)品發(fā)表的重復評論。
    同一用戶對同一產(chǎn)品的重復評論,有可能是因為用戶多次點擊提交造成的,也有可能是用戶為了修改之前的評論。為此,只保留同一用戶對同一產(chǎn)品的最新評論。
    重復和近似重復評論的識別使用的是Shingle Method[5]。首先,對所有評論建立2-Gram語言模型,然后對兩個評論A、B計算相似值J(A,B),公式如下:
    J(A,B)=(A∩B)/(A∪B)
當兩個評論的相似度在90%以上時,把它們當作重復評論。
2.1.2 模型的建立
    本文使用R統(tǒng)計軟件來建立邏輯回歸模型,并將AUC(Area under ROC Curve)作為分類結(jié)果的評價指標。AUC是一個用于評價機器學習模型質(zhì)量的標準指標。
    為了建立模型,需要構(gòu)建訓練數(shù)據(jù),為此,本文使用了JINDAL N和Liu Bing總結(jié)的特征來表示評論,具體特征見參考文獻[4]。其中本文對部分特征的處理可能與他們的方法存在差異:對于特征F10、F11,本文中的這些詞來自知網(wǎng)(Hownet)提供的最新情感詞詞典,與JINDAL N等的詞典不同;特征F26的評論數(shù)少于3不予判斷,當做0。
2.2 顯著性檢驗
    根據(jù)樣本得到的Logistic回歸模型需要經(jīng)過檢驗才能說明影響因素對事件發(fā)生的影響是否具有統(tǒng)計學意義。特別是當影響因素比較多時,需挑選出與事件發(fā)生確實有關(guān)或關(guān)系更密切的影響因素,以建立更加穩(wěn)定的回歸模型。
  

    Amazon網(wǎng)站的每個評論由8部分組成:Product ID;Reviewer ID、Rating、Date、Review Title、Review Body、Number of Helpful Feedbacks和Number of Feedbacks。


    以上顯著性特征中,′***′和′**′顯著性特征主要為F13~F16以及F24~F30,即文本特征和評論者特征,這說明評論文本內(nèi)容和評論者行為在識別重復評論中發(fā)揮了重要作用。
3.3 垃圾評論識別效果及其分析
    本文通過建立分類模型檢測第一類垃圾評論,由于人工標記訓練集是比較困難的,而在2.1.1節(jié)中提到的三種類型重復評論幾乎可以確定為垃圾評論。因此,本文將所有重復評論歸為正類,其他剩下的評論歸為負類,以此來建立模型。同時,使用十倍交叉驗證來獲得實驗結(jié)果,針對不同特征集合的實驗結(jié)果如表3所示。

    從實驗結(jié)果可以看出:
    (1)使用所有特征AUC為83.8%,考慮到負類樣本中的許多非重復評論也有可能是垃圾評論,該AUC值已經(jīng)相當高了。
    (2)除去feedbacks之外的特征AUC值為83.7%,證明feedbacks在垃圾評論檢測中作用不明顯。
    (3)單獨文本特征的AUC值只有70.1%,說明不能單獨使用文本特征進行垃圾評論的識別。
    (4)‘***’特征AUC值為82.2%,比所有特征只差1.6%,而‘***’特征和‘**’特征AUC值最高,甚至高于所有特征的AUC值達到84.7%。
    綜上所述,本文提出的以顯著性特征構(gòu)建的模型更加穩(wěn)定,不僅減少了計算量,而且能夠達到和所有特征同樣的效果。
    當然,利用重復和非重復評論建立邏輯回歸模型不只是為了檢測重復評論,因為重復垃圾評論的識別可以通過簡單的內(nèi)容比較檢測到(見2.1.1節(jié)),本文真正的目的是用該模型來識別第一類型垃圾評論中的非重復評論。上述實驗結(jié)果證明了模型可預測重復評論,為了進一步確認它的可預測性,需要證明它也可以預測那些非重復的垃圾評論。
    為此,本文將通過人工檢測查看許多排名很高的非重復評論是否是真正的垃圾評論。首先,對負類測試樣本(非重復)按照概率進行排列;然后,對排名較高的評論進行人工標注,看它們是否為垃圾評論。人工標注采用投票的方式來完成。實驗結(jié)果如表4所示,其中第二行為應用所有特征的負類樣本排列后檢測的結(jié)果,第三行為應用‘***’特征和‘**’特征的結(jié)果??梢钥闯鍪褂盟刑卣饕约?lsquo;***’特征和‘**’特征能夠識別的垃圾評論數(shù)量都較少,這是由于許多有經(jīng)驗的垃圾評論者能夠很好地掩飾他們的行為,使判別變得異常困難。但實驗結(jié)果表明,本文提出的方法是有效的,可以應用更少的顯著性特征來識別產(chǎn)品垃圾評論。

 

 

    以過多的產(chǎn)品評論特征建立的邏輯回歸模型存在模型不穩(wěn)定和計算量大的問題。對特征進行顯著性檢驗能有效解決該問題。本文對JINDAL N等人提出的方法進行研究,并分析了存在的問題,提出利用更為合理的顯著性特征建立模型,從而提高了模型質(zhì)量。新的模型更加穩(wěn)定,使得計算量大大減少。實驗通過亞馬遜數(shù)據(jù)集,驗證了本文方法的有效性。未來的工作將致力于通過混合各種算法和分類器來提高算法精度。
參考文獻
[1] JINDAL N,Liu Bing.Review spam detection[C].Proceedings  of the 16th International Conference on World Wide Web,2007:1189-1190.
[2] JINDAL N,Liu Bing.Opinion spam and analysis[C].Proceedings of the International Conference on Web Search and Web data mining,2008:219-230.
[3] HU M,Liu Bing.Mining and summarizing customer reviews  [C].Proceedings of the 10th ACM SIGKDD International  Conference on Knowledge Discovery and Data Mining.2004:168-177.
[4] PANG Bo,LILLIAN L E.Opinion mining and sentiment analysis[J].Foundations and Trends in Information Retrieval. 2008,2(1-2):1-135.
[5] BRODER A Z.On the resemblance and containment of documents[C].Proceedings of the Compression and Complexity of Sequences.1997:21-29.

此內(nèi)容為AET網(wǎng)站原創(chuàng),未經(jīng)授權(quán)禁止轉(zhuǎn)載。