成人网站入口,五月丁香久久,亚洲精品99,亚洲欧美精品中文幕无码三区,丁香五月激情网,国产一区二区不卡视频,日韩精品网站,国产精品999

深圳市瑞申電子有限公司

深圳市瑞申電子有限公司是一家10年專業(yè)大功率電感生產(chǎn)加工廠商,主要以大功率,大電流、扁平線圈電感、平面變壓器設(shè)計、生產(chǎn)、銷售工廠。設(shè)計、繞線、組裝、檢測、包裝、出貨等全制程的工藝流程!擁有完整、科學(xué)的質(zhì)量管理體系。專業(yè)技術(shù)團(tuán)隊10人,我們的誠信、實(shí)力和產(chǎn)品質(zhì)量獲得業(yè)界的認(rèn)可。歡迎各界朋友蒞臨參觀、指導(dǎo)和業(yè)務(wù)洽談。 ...

中文客戶評論對象特征的抽取與聚類方法

時間:2015-07-24 06:45:21 點(diǎn)擊:

  摘 要: 通過利用Apriori算法抽取評價對象的候選特征集,結(jié)合計算領(lǐng)域一致度和領(lǐng)域相關(guān)度對候選特征進(jìn)行過濾,實(shí)現(xiàn)了對中文客戶評論的對象特征挖掘,并且用實(shí)驗(yàn)驗(yàn)證了該方法的有效性。

  關(guān)鍵詞: 特征挖掘;領(lǐng)域一致度;領(lǐng)域相關(guān)度

  評論挖掘是一種以從評論數(shù)據(jù)中探尋有用信息為目標(biāo)的非結(jié)構(gòu)化數(shù)據(jù)挖掘技術(shù),主要包含評論對象的特征挖掘、評論觀點(diǎn)挖掘、評論觀點(diǎn)的極性以及強(qiáng)度判斷、評論挖掘結(jié)果的匯總以及按用戶觀點(diǎn)排序4個子任務(wù)[1]。

  評價對象的特征挖掘是指從大量的客戶評論中挖掘出用戶關(guān)注的評價對象特征。這一技術(shù)是分析用戶對評價對象的具體特征所持的情感傾向的前提,其準(zhǔn)確性和全面性是非常重要的。近年來,國內(nèi)外研究人員對評價對象的特征挖掘進(jìn)行深入研究,他們采用很多不同方法來對特征進(jìn)行挖掘[2-6]。本文針對中文客戶評論的特征挖掘的性能不夠理想的問題[7],提出了一種基于Apriori算法抽取候選特征集,集成領(lǐng)域一致度和領(lǐng)域相關(guān)度方法對候選特征進(jìn)行過濾的方法,實(shí)現(xiàn)中文客戶評論對象的特征挖掘,并且通過實(shí)驗(yàn)驗(yàn)證這一方法的有效性。

1 評論對象的特征挖掘


001.jpg


  中文客戶評論對象的特征挖掘過程如圖1所示。首先,輸入不同評論對象的評論語料;然后對這些評論語料進(jìn)行預(yù)處理,利用中科院計算所所研發(fā)的ICTCLAS系統(tǒng)對評論文本語料進(jìn)行分詞和二級詞性標(biāo)注,以評論語料中句子為單位,進(jìn)行詞性過濾,提取出評論語料中名詞和具有名詞功能的形容詞或者動詞或者名詞短語作為項(xiàng),每一篇評論項(xiàng)組合起來作為一個事務(wù)在事務(wù)文件中存為一行。將每個評論對象的所有評論語料中的事務(wù)都存儲在一個事務(wù)文件中。經(jīng)過預(yù)處理后,每個評論對象均有一個事務(wù)文件。然后,應(yīng)用Apriori算法從事務(wù)文件中提取頻繁項(xiàng)集,并通過剪枝方法去除掉一些不合適的頻繁項(xiàng),得到評價對象的候選特征集。最后,利用特征的領(lǐng)域相關(guān)度和領(lǐng)域一致度定義綜合評定指標(biāo),根據(jù)該指標(biāo)對候選特征進(jìn)行過濾,得到評價對象的特征。

  1.1 評價對象的候選特征挖掘

  定義1 頻繁項(xiàng):設(shè)I是m個項(xiàng)目的集合,T是n個事務(wù)集合,其中每個事務(wù)S是一個項(xiàng)目集合,并滿足S?哿I。由I中的若干項(xiàng)組成的集合稱為項(xiàng)集,包含k個項(xiàng)的項(xiàng)集稱為k-項(xiàng)集,包含項(xiàng)集的事務(wù)數(shù)稱為該項(xiàng)集的出現(xiàn)頻度。如果該項(xiàng)集的出現(xiàn)頻度大于或等于預(yù)先設(shè)定的最小支持度,則稱項(xiàng)集為頻繁項(xiàng)。

  定義2 鄰近規(guī)則:假設(shè)f是頻繁項(xiàng),而且f包含n個詞,評論句s包含f,而且在f中的詞出現(xiàn)在s中的順序?yàn)椋簑1,w2,…,wn。如果在s中wi和wi+1(i=1,…n-1)的距離不超過兩個詞,則可以說f在s中是鄰近的。

  定義3 獨(dú)立支持度:頻繁項(xiàng)f的獨(dú)立支持度是指包含f本身但不包含f的超集的句子數(shù)量,即f的支持度減去f的超集支持度之和。若f的獨(dú)立支持度大于最小支持度,則其符合獨(dú)立支持度規(guī)則。

  挖掘評價對象的候選特征過程如算法1所示。首先,應(yīng)用Apriori算法從預(yù)處理得到的評價對象的事務(wù)文件中,提取滿足最小支持度的頻繁項(xiàng)集。通過分析評論對象特征的特性,發(fā)現(xiàn)3維以上頻繁項(xiàng)不可能是特征,所以只提取3維及其以下的頻繁項(xiàng);然后,根據(jù)鄰近規(guī)則,去掉不在其相鄰位置的頻繁項(xiàng);根據(jù)獨(dú)立支持度剪枝去掉被包含在其他頻繁項(xiàng)的冗余頻繁項(xiàng);因?yàn)閱巫植豢赡苁窃u價對象的特征,所以,刪去頻繁項(xiàng)集中的單字。

  算法1 評價對象的候選特征挖掘

  輸入:評論語料事務(wù)文件W,評論語料庫T

  輸出:頻繁特征集L

  方法:

  int minsupport,int k;

  //初始化最小支持度和頻繁項(xiàng)集的最高維度

  L0=Apriori(W,minsupport,k);

  //通過Apriori算法得到頻繁項(xiàng)集L0

  for each f∈L0 do

  //對于L0中的大于一維的項(xiàng)根據(jù)鄰近規(guī)則重新計算支持度

  if f.dimension﹥1 then//如果f的維度大于1

  f.count=0;//f的支持度重新設(shè)置為0

  for each t∈T do//對所有事務(wù)掃描一遍

  if f在t中是鄰近的do//若f在t中符合鄰近規(guī)則

  f.count++;//f的支持度加1

  end if

  end for

  end if

  end for

 風(fēng)華電感 L1={f∈L0|f.count≧minsupport}; 大功率電感廠家 |大電流電感工廠

  • 求助labview操作excel時,導(dǎo)入附件無法控制其大小
    我利用labview中的報表工具包,按照圖1中所示的程序圖將一個圖片的文件,以附件的形式導(dǎo)入到excel中, 通過上面的position和size調(diào)節(jié)該附件的大小,可是無論我怎么改變這個size
  • 資料齊全的超聲波測距學(xué)習(xí)板
    超聲波測距學(xué)習(xí)板,可應(yīng)用于汽車倒車、建筑施工工地以及一些工業(yè)現(xiàn)場的位置監(jiān)控,也可用于如液位、井深、管道長度的測量等場合。測量精度1cm,測量時與被測物體無直接接觸,能夠清晰穩(wěn)定地顯示測量結(jié)果。 超聲波測距原理: 超聲波發(fā)生器的內(nèi)部結(jié)構(gòu)有兩個壓電晶片和一個共振板,當(dāng)它的兩極外加上固有振蕩頻率...
  • [ADI]【技術(shù)文章精華】凌力爾特?zé)o線充電技術(shù) Q&A
    本帖最后由小唏于2017-8-1515:15編輯 凌力爾特?zé)o線充電技術(shù)Q&A 隨著物聯(lián)網(wǎng)(IoT)、可穿戴和便攜式設(shè)備的發(fā)展,消費(fèi)者開始厭倦雜亂的電纜和需要頻繁充電的電池。 無線充電在我
  • 大功率電感

    东阳市| 赤壁市| 湘阴县| 娄底市| 镇巴县| 晋宁县| 普宁市| 阳信县| 双城市| 城市| 吉木萨尔县| 招远市| 闻喜县| 乌什县| 井研县| 唐河县| 舒兰市| 石泉县| 修武县| 宁河县| 清水县| 大丰市| 定边县| 金寨县| 贡觉县| 乾安县| 建水县| 克东县| 镇安县| 二连浩特市| 边坝县| 临西县| 扶沟县| 剑川县| 克什克腾旗| 宜章县| 阿拉尔市| 曲阜市| 洛川县| 饶阳县| 阳新县|