摘 要: 通過利用Apriori算法抽取評價對象的候選特征集,結(jié)合計算領(lǐng)域一致度和領(lǐng)域相關(guān)度對候選特征進(jìn)行過濾,實(shí)現(xiàn)了對中文客戶評論的對象特征挖掘,并且用實(shí)驗(yàn)驗(yàn)證了該方法的有效性。
關(guān)鍵詞: 特征挖掘;領(lǐng)域一致度;領(lǐng)域相關(guān)度
評論挖掘是一種以從評論數(shù)據(jù)中探尋有用信息為目標(biāo)的非結(jié)構(gòu)化數(shù)據(jù)挖掘技術(shù),主要包含評論對象的特征挖掘、評論觀點(diǎn)挖掘、評論觀點(diǎn)的極性以及強(qiáng)度判斷、評論挖掘結(jié)果的匯總以及按用戶觀點(diǎn)排序4個子任務(wù)[1]。
評價對象的特征挖掘是指從大量的客戶評論中挖掘出用戶關(guān)注的評價對象特征。這一技術(shù)是分析用戶對評價對象的具體特征所持的情感傾向的前提,其準(zhǔn)確性和全面性是非常重要的。近年來,國內(nèi)外研究人員對評價對象的特征挖掘進(jìn)行深入研究,他們采用很多不同方法來對特征進(jìn)行挖掘[2-6]。本文針對中文客戶評論的特征挖掘的性能不夠理想的問題[7],提出了一種基于Apriori算法抽取候選特征集,集成領(lǐng)域一致度和領(lǐng)域相關(guān)度方法對候選特征進(jìn)行過濾的方法,實(shí)現(xiàn)中文客戶評論對象的特征挖掘,并且通過實(shí)驗(yàn)驗(yàn)證這一方法的有效性。
1 評論對象的特征挖掘
中文客戶評論對象的特征挖掘過程如圖1所示。首先,輸入不同評論對象的評論語料;然后對這些評論語料進(jìn)行預(yù)處理,利用中科院計算所所研發(fā)的ICTCLAS系統(tǒng)對評論文本語料進(jìn)行分詞和二級詞性標(biāo)注,以評論語料中句子為單位,進(jìn)行詞性過濾,提取出評論語料中名詞和具有名詞功能的形容詞或者動詞或者名詞短語作為項(xiàng),每一篇評論項(xiàng)組合起來作為一個事務(wù)在事務(wù)文件中存為一行。將每個評論對象的所有評論語料中的事務(wù)都存儲在一個事務(wù)文件中。經(jīng)過預(yù)處理后,每個評論對象均有一個事務(wù)文件。然后,應(yīng)用Apriori算法從事務(wù)文件中提取頻繁項(xiàng)集,并通過剪枝方法去除掉一些不合適的頻繁項(xiàng),得到評價對象的候選特征集。最后,利用特征的領(lǐng)域相關(guān)度和領(lǐng)域一致度定義綜合評定指標(biāo),根據(jù)該指標(biāo)對候選特征進(jìn)行過濾,得到評價對象的特征。
1.1 評價對象的候選特征挖掘
定義1 頻繁項(xiàng):設(shè)I是m個項(xiàng)目的集合,T是n個事務(wù)集合,其中每個事務(wù)S是一個項(xiàng)目集合,并滿足S?哿I。由I中的若干項(xiàng)組成的集合稱為項(xiàng)集,包含k個項(xiàng)的項(xiàng)集稱為k-項(xiàng)集,包含項(xiàng)集的事務(wù)數(shù)稱為該項(xiàng)集的出現(xiàn)頻度。如果該項(xiàng)集的出現(xiàn)頻度大于或等于預(yù)先設(shè)定的最小支持度,則稱項(xiàng)集為頻繁項(xiàng)。
定義2 鄰近規(guī)則:假設(shè)f是頻繁項(xiàng),而且f包含n個詞,評論句s包含f,而且在f中的詞出現(xiàn)在s中的順序?yàn)椋簑1,w2,…,wn。如果在s中wi和wi+1(i=1,…n-1)的距離不超過兩個詞,則可以說f在s中是鄰近的。
定義3 獨(dú)立支持度:頻繁項(xiàng)f的獨(dú)立支持度是指包含f本身但不包含f的超集的句子數(shù)量,即f的支持度減去f的超集支持度之和。若f的獨(dú)立支持度大于最小支持度,則其符合獨(dú)立支持度規(guī)則。
挖掘評價對象的候選特征過程如算法1所示。首先,應(yīng)用Apriori算法從預(yù)處理得到的評價對象的事務(wù)文件中,提取滿足最小支持度的頻繁項(xiàng)集。通過分析評論對象特征的特性,發(fā)現(xiàn)3維以上頻繁項(xiàng)不可能是特征,所以只提取3維及其以下的頻繁項(xiàng);然后,根據(jù)鄰近規(guī)則,去掉不在其相鄰位置的頻繁項(xiàng);根據(jù)獨(dú)立支持度剪枝去掉被包含在其他頻繁項(xiàng)的冗余頻繁項(xiàng);因?yàn)閱巫植豢赡苁窃u價對象的特征,所以,刪去頻繁項(xiàng)集中的單字。
算法1 評價對象的候選特征挖掘
輸入:評論語料事務(wù)文件W,評論語料庫T
輸出:頻繁特征集L
方法:
int minsupport,int k;
//初始化最小支持度和頻繁項(xiàng)集的最高維度
L0=Apriori(W,minsupport,k);
//通過Apriori算法得到頻繁項(xiàng)集L0
for each f∈L0 do
//對于L0中的大于一維的項(xiàng)根據(jù)鄰近規(guī)則重新計算支持度
if f.dimension﹥1 then//如果f的維度大于1
f.count=0;//f的支持度重新設(shè)置為0
for each t∈T do//對所有事務(wù)掃描一遍
if f在t中是鄰近的do//若f在t中符合鄰近規(guī)則
f.count++;//f的支持度加1
end if
end for
end if
end for
風(fēng)華電感 L1={f∈L0|f.count≧minsupport}; 大功率電感廠家 |大電流電感工廠