摘 要:采用關(guān)聯(lián)規(guī)則分類的方法,根據(jù)個(gè)人所在的行業(yè)和崗位的不同,對(duì)管理勝任力相關(guān)數(shù)據(jù)進(jìn)行分類。結(jié)合不確定性問題,用概率來表示勝任力的隸屬度,使對(duì)管理勝任力素質(zhì)的分類更加符合人們的思維習(xí)慣。并且利用新的規(guī)則啟發(fā)知識(shí),對(duì)建立的模型進(jìn)行了精確度優(yōu)化,使之對(duì)勝任力素質(zhì)類型的預(yù)測(cè)更加有效。
關(guān)鍵詞:數(shù)據(jù)挖掘" title="數(shù)據(jù)挖掘">數(shù)據(jù)挖掘;不確定性分析;關(guān)聯(lián)分類;管理勝任力
現(xiàn)代企業(yè)的發(fā)展對(duì)人才管理的要求越來越高,企業(yè)如何制定一套適合自身行業(yè)特色的人力資源戰(zhàn)略,決定了企業(yè)能否吸引、留住人才,能否在競(jìng)爭(zhēng)激烈的市場(chǎng)中保持企業(yè)的競(jìng)爭(zhēng)優(yōu)勢(shì)。隨著人力資源管理在企業(yè)中的地位日益重要,其能否在企業(yè)中發(fā)揮重要作用,很大程度上取決于人力資源管理人員的管理勝任力素質(zhì),即他們能否讓企業(yè)員工工作在合適的崗位上。
1 勝任力的定義與評(píng)估
1.1 勝任力的定義
自McClelland(1973)提出“勝任力”概念,中西方學(xué)者紛紛提出自己對(duì)勝任力(勝任特征)的理解。通過研究眾多學(xué)者給勝任力所下的定義,可以發(fā)現(xiàn),勝任力有3個(gè)特點(diǎn):(1)與特定工作相關(guān);(2)可以在特定工作中創(chuàng)造高績(jī)效;(3)包含一些個(gè)人的特征,如特質(zhì)(Traits)、動(dòng)機(jī)(Motives)、自我概念(Self-image)、社會(huì)角色(Social-role)、態(tài)度(attitude)、價(jià)值觀(Value)、知識(shí)(Knowledge)、技能(Skill)等。
本文采用Spencer等人(1994)對(duì)勝任力的定義,即勝任力是指特質(zhì)、動(dòng)機(jī)、自我概念、社會(huì)角色、態(tài)度、價(jià)值觀、知識(shí)、技能等能夠可靠測(cè)量并可以把高績(jī)效員工與一般績(jī)效員工區(qū)分開來的任何個(gè)體特征。其中,較容易通過培訓(xùn)、教育來發(fā)展的知識(shí)和技能是對(duì)任職者的基本要求,被稱為基準(zhǔn)性勝任力(Threshold Competency);而在短期內(nèi)較難改變和發(fā)展的特質(zhì)、動(dòng)機(jī)、自我概念、社會(huì)角色、態(tài)度、價(jià)值觀等高績(jī)效者在職位上獲得成功所必須具備的條件,被統(tǒng)稱為鑒別性勝任力(Differentiating Competency)[1]。
1.2 勝任力的評(píng)估
傳統(tǒng)的勝任力評(píng)估主要以專家打分法確定勝任力素質(zhì)指標(biāo),有別于此,本文的研究始于開放式問卷收集與勝任力素質(zhì)相關(guān)的條目,編制預(yù)試問卷,然后篩選掉重要度或區(qū)分度不高的條目,形成最終問卷。得到相關(guān)數(shù)據(jù)后,運(yùn)用關(guān)聯(lián)規(guī)則分類方法對(duì)勝任力的評(píng)價(jià)與評(píng)價(jià)可能性進(jìn)行建模,獲取精確度較高的勝任力評(píng)估預(yù)測(cè)模型。
2 關(guān)聯(lián)分類及其算法
2.1 基于關(guān)聯(lián)的分類方法
關(guān)聯(lián)分類規(guī)則挖掘的第一步就是發(fā)現(xiàn)所有的頻繁和準(zhǔn)確的可能規(guī)則,它們是類別關(guān)聯(lián)規(guī)則[3]。若一個(gè)規(guī)則項(xiàng)目包含k個(gè)項(xiàng)目,就稱這一規(guī)則項(xiàng)目集為k-ruleitems。算法利用與Apriori算法類似的循環(huán)過程,只是用規(guī)則項(xiàng)目集替代了其中的項(xiàng)。
CBA(Classification-Based Association)算法就是一種在關(guān)聯(lián)分類規(guī)則挖掘中發(fā)掘類關(guān)聯(lián)規(guī)則的算法[2]。它是在Apriori算法的基礎(chǔ)上去發(fā)掘頻繁集和分類規(guī)則的。
關(guān)聯(lián)規(guī)則挖掘的第二步就是對(duì)所獲得的CAR進(jìn)行處理以便構(gòu)造一個(gè)分類器。由于為了獲得最準(zhǔn)確的規(guī)則集而要對(duì)所有的規(guī)則子集進(jìn)行檢查,這樣所要處理的規(guī)則數(shù)目極為龐大,因此必須采用啟發(fā)知識(shí)[3]。根據(jù)啟發(fā)規(guī)則,分類器對(duì)所選的規(guī)則按優(yōu)先值從高到低排列。當(dāng)進(jìn)行分類時(shí),使用優(yōu)先值大且滿足條件的規(guī)則進(jìn)行分類。此外,分類器還應(yīng)包含一個(gè)缺省規(guī)則(具有最低優(yōu)先值),當(dāng)其他規(guī)則都不滿足時(shí),利用這一缺省規(guī)則對(duì)數(shù)據(jù)對(duì)象進(jìn)行分類。
通常,關(guān)聯(lián)分類方法要比C4.5等普通分類算法更加準(zhǔn)確,且以上兩個(gè)步驟都具有線性可擴(kuò)展性。
2.2 利用關(guān)聯(lián)分類解決分類的不確定性問題
計(jì)算機(jī)要模擬人的思維和判斷過程,就必須將人的語言中所具有的多義和不確定信息定量地表示出來,即不確定性問題。這種方式更加自然,更加接近人的表達(dá)方式。目前利用貝葉斯網(wǎng)絡(luò)、模糊神經(jīng)網(wǎng)絡(luò)都能夠解決不確定性分類的問題。
關(guān)聯(lián)規(guī)則挖掘中將規(guī)則信任度表示為:c(A≥B)=P(B/A)=s(A∪B)/s(A),其意義就是在A發(fā)生的前提下出現(xiàn)B的概率。如果把A看成條件,B看成一個(gè)類,則可以表達(dá)為:在具備條件A的情況下,樣本屬于B類的概率。本文以此利用關(guān)聯(lián)分析來解決不確定性分類的問題。
3 數(shù)據(jù)樣本的預(yù)處理
3.1 預(yù)測(cè)問卷的因子分析
因子分析是從眾多的原始變量中構(gòu)造出少數(shù)幾個(gè)具有代表意義的因子變量,這里有一個(gè)潛在的要求,即原有變量之間要具有比較強(qiáng)的相關(guān)性,否則無法從中綜合出能反映某些變量共同特性的少數(shù)公共因子變量來[3]。因此,在因子分析時(shí),需要對(duì)原有變量作相關(guān)分析。本文用KMO和球形Bartlett檢驗(yàn),對(duì)變量進(jìn)行相關(guān)分析。
(1) KMO(Kaiser-Meyer-Olkin)檢驗(yàn)
KMO統(tǒng)計(jì)量用于比較變量間簡(jiǎn)單相關(guān)和偏相關(guān)系數(shù),計(jì)算公式如下:

(2)巴特利特球形檢驗(yàn)(Bartlett Test of Sphericity)
巴特利特球形檢驗(yàn)是基于變量的相關(guān)系數(shù)矩陣的檢驗(yàn)方法[5]。它的零假設(shè)為相關(guān)矩陣是一個(gè)單位陣,即相關(guān)系數(shù)矩陣對(duì)角線上的所有元素都為1,所有非對(duì)角線上的元素都為零。巴特利特球形檢驗(yàn)的統(tǒng)計(jì)量是根據(jù)相關(guān)系數(shù)矩陣的行列式得到的。如果該值較大,且其對(duì)應(yīng)的相伴概率值小于給定的顯著性水平,就拒絕零假設(shè),認(rèn)為相關(guān)系數(shù)矩陣不可能是單位陣,即原始變量之間存在相關(guān)性,適合于作因子分析;相反,如果該統(tǒng)計(jì)量值比較小,且對(duì)應(yīng)的相伴概率大于顯著性水平,則不能拒絕原假設(shè),此時(shí)不宜作因子分析。
3.2 公共因子的提取
本文以旺旺集團(tuán)、廣州百事可樂集團(tuán)等八大現(xiàn)代企業(yè)的管理人員為研究對(duì)象,從發(fā)放開放式問卷出發(fā),收集可能與勝任力特征相關(guān)的條目形成預(yù)試問卷,應(yīng)用因子分析和方差分析方法對(duì)試卷進(jìn)行檢驗(yàn)和優(yōu)化,篩選掉荷載低或區(qū)分度低的問題,最終生成包含40個(gè)問題的問卷。
用主成分法對(duì)最終問卷中40個(gè)問題的數(shù)據(jù)進(jìn)行因子分析。首先應(yīng)判斷數(shù)據(jù)是否適合進(jìn)行因子分析,此處仍然采用KMO和球度Bartlett檢驗(yàn),檢驗(yàn)結(jié)果如表1所示。

由表1數(shù)據(jù)可知,KMO檢驗(yàn)值為0.875,根據(jù)Kaiser給出的標(biāo)準(zhǔn)0.8 主成分分析研究如何通過原來變量的少數(shù)幾個(gè)線性組合來解釋隨機(jī)向量的方差-協(xié)方差結(jié)構(gòu)[3]。其作用為:(1)簡(jiǎn)化數(shù)據(jù);(2)揭示變量間的關(guān)系。所謂主成分是指原來變量的線性組合,它們互不相關(guān),且方差達(dá)到最大。采用主成分法,設(shè)定提取特征值大于1的因子,共提取了7個(gè)因子,其中特征值最大為15.810,最小為1.198。
根據(jù)因子的特征,本文提出7個(gè)公共因子的對(duì)應(yīng)解釋。
7個(gè)公共因子的解釋如圖1所示。

Fk取值為1~5,對(duì)應(yīng)了5個(gè)重要性級(jí)別,1最低,5最高。
得到7個(gè)公共因子得分結(jié)果以后,接下來根據(jù)公共因子得分對(duì)所有樣本數(shù)據(jù)進(jìn)行聚類分析,以便確定如何對(duì)樣本的評(píng)判等級(jí)進(jìn)行分類。
通過基于EM(基于期望最大化)算法的聚類分析,樣本數(shù)據(jù)集聚成了三類。本文把評(píng)判數(shù)據(jù)樣本的優(yōu)秀等級(jí)分為三級(jí):優(yōu)秀,良好,普通。
管理勝任力素質(zhì)的評(píng)價(jià)預(yù)測(cè)模型,是多因素、多指標(biāo)綜合評(píng)價(jià)。在某一工作崗位上非常重要的知識(shí)和技能,在另外一個(gè)工作崗位上可能會(huì)成為制約其發(fā)展的阻礙因素。在一個(gè)組織中不同職務(wù)和不同管理層級(jí)所要求員工具備的勝任力內(nèi)容和水平也是不同的。因此,需要建立能適用科學(xué)可行的管理勝任力素質(zhì)評(píng)價(jià)體系,使企業(yè)做到人-崗匹配,發(fā)揮員工的最大能力。
本文把樣本的多級(jí)管理勝任力水平與樣本所在的崗位聯(lián)系起來,從而解決了長(zhǎng)期以來針對(duì)管理勝任力的研究沒有結(jié)合具體崗位的問題。
4 建立基于關(guān)聯(lián)分類的管理勝任力模型
首先,對(duì)2/3的樣本數(shù)據(jù)建立管理勝任力預(yù)測(cè)模型。把F1~F7七個(gè)屬性作為規(guī)則的左邊,并利用崗位和勝任力水平兩屬性的值共同決定一個(gè)類別,設(shè)置最小支持度閾值和最小信任度閾值分別為0.3、0.6,對(duì)樣本數(shù)據(jù)進(jìn)行關(guān)聯(lián)分類。
得到頻繁集后,進(jìn)而得到分類規(guī)則。根據(jù)啟發(fā)知識(shí)對(duì)分類規(guī)則排序并建立勝任力模型,表2是分類規(guī)則的基本形式。

4.1 檢驗(yàn)?zāi)P途_度
本文用于建立模型的訓(xùn)練樣本是總樣本的2/3,為了檢驗(yàn)管理勝任力模型的預(yù)測(cè)精度,需要使用剩下的1/3的樣本作為測(cè)試數(shù)據(jù)集,對(duì)已經(jīng)建立的勝任力模型的精確度進(jìn)行評(píng)估。預(yù)測(cè)精度的檢驗(yàn)公式為:

其中Qi為輸出值(預(yù)測(cè)值),yi為真實(shí)值。
經(jīng)過與測(cè)試樣本的對(duì)比,本文得到的模型對(duì)測(cè)試數(shù)據(jù)集檢驗(yàn)的精確度為89.341%,預(yù)測(cè)成功率較高。部分檢驗(yàn)結(jié)果如表3所示。

4.2 模型的優(yōu)化
普通的關(guān)聯(lián)分類算法(CBA)在建模過程中采用的是一種基本的啟發(fā)知識(shí),如表4所示。這種啟發(fā)知識(shí)主要考慮支持度和信任度的不同來對(duì)規(guī)則進(jìn)行排序,然而當(dāng)兩條規(guī)則的支持度和信任度都相同時(shí),啟發(fā)知識(shí)規(guī)定產(chǎn)生時(shí)間早的規(guī)則擁有優(yōu)先權(quán)。顯然,越早產(chǎn)生的規(guī)則所含的屬性越少,這說明基本的啟發(fā)知識(shí)中含有這樣一條隱含規(guī)則:當(dāng)信任度和支持度相同時(shí),規(guī)則左邊所含屬性少的規(guī)則的優(yōu)先權(quán)高。

然而,當(dāng)遇到大數(shù)據(jù)集時(shí),這種方法并不是非常有效。例如,在大數(shù)據(jù)集時(shí),關(guān)聯(lián)分類方法可能產(chǎn)生上萬條分類規(guī)則,其中會(huì)有幾千條具有相同的支持度和置信度。根據(jù)以上的啟發(fā)知識(shí),只能隨機(jī)選擇這些規(guī)則的優(yōu)先權(quán),而對(duì)于那些擁有優(yōu)先權(quán),它們有可能并不是最優(yōu)規(guī)則,所以會(huì)影響模型的準(zhǔn)確率。
在這里,根據(jù)以上的分析,本文提出了一項(xiàng)新的啟發(fā)知識(shí),使得規(guī)則的優(yōu)先權(quán)確定更加完善合理,如表5所示。在兩條規(guī)則的支持度、信任度相同時(shí),賦予所指的類別在數(shù)據(jù)集中出現(xiàn)得更多的規(guī)則較高的優(yōu)先權(quán)。當(dāng)且僅當(dāng)它們都相同時(shí),分類器才選擇產(chǎn)生得早的規(guī)則。

經(jīng)過改進(jìn)后,新的啟發(fā)知識(shí)使規(guī)則與規(guī)則的關(guān)系更加明顯,同時(shí)也保證了好的規(guī)則擁有更高的優(yōu)先權(quán),這就使得模型的準(zhǔn)確率有可能進(jìn)一步提高。
4.3 模型優(yōu)化后準(zhǔn)確率的對(duì)比
為了能說明以上提出的模型優(yōu)化方法的有效性,本文同時(shí)也對(duì)WEKA 3.5.5所自帶的幾個(gè)數(shù)據(jù)集進(jìn)行了關(guān)聯(lián)規(guī)則分類建模與優(yōu)化后精確度的對(duì)比,結(jié)果如表6所示。

通過以上對(duì)比可以看出,總的來說,數(shù)據(jù)集在經(jīng)過優(yōu)化后的模型精度都是有所上升的。這說明本文對(duì)啟發(fā)規(guī)則的優(yōu)化的確改進(jìn)了建模的精度,從而能夠提高模型的預(yù)測(cè)精度。
本文針對(duì)管理勝任力素質(zhì),以旺旺集團(tuán)、廣州百事等企業(yè)的管理人員為研究對(duì)象獲取數(shù)據(jù),考慮分類的不確定性問題,嘗試采用關(guān)聯(lián)規(guī)則分類來建立管理勝任力預(yù)測(cè)模型,把對(duì)樣本勝任力的預(yù)測(cè)與崗位相聯(lián)系,在預(yù)測(cè)中增加了隸屬度的表示來幫助決策者做出決定,并使用了多級(jí)的評(píng)判標(biāo)準(zhǔn),最后根據(jù)分析建模過程中規(guī)則的優(yōu)先級(jí)排序提出了優(yōu)化的規(guī)則啟發(fā)知識(shí),使規(guī)則的排序更加完善,進(jìn)而使樣本的分類準(zhǔn)確度更高,提高了模型精確率和效率。
參考文獻(xiàn)
[1] SPENCER L M,SPENCER S M.才能評(píng)鑒法:建立卓越的績(jī)效模式[M].魏梅金,譯.汕頭:汕頭大學(xué)出版社 ,2003.
[2] LIU B , MA Y .Integrating classification and association rule mining[C].Proc of the 4th International Conference on Knowledge Discovery and Data Mining, New York ,1998.
[3] HAN Jia Wei. Data mining-concepts and techniques[M]. 北京:機(jī)械工業(yè)出版社 ,2006.
[4] TAN Pang Ning, MS V. Introduction to data mining [M].北京:人民郵電出版社, 2006.
[5] 梁之舜,鄧集賢.概率論及數(shù)理統(tǒng)計(jì)(第二版)[M].北京:高等教育出版社,1988.
