123,123

不确定性关联分类与人才资源配置的研究

闵华清，田祥庆

摘要： 采用关联规则分类的方法，根据个人所在的行业和岗位的不同，对管理胜任力相关数据进行分类。结合不确定性问题，用概率来表示胜任力的隶属度，使对管理胜任力素质的分类更加符合人们的思维习惯。并且利用新的规则启发知识，对建立的模型进行了精确度优化，使之对胜任力素质类型的预测更加有效。

關(guān)鍵詞： 数据挖掘

Abstract：

Key words :

　　摘要：采用關(guān)聯(lián)規(guī)則分類(lèi)的方法，根據(jù)個(gè)人所在的行業(yè)和崗位的不同，對(duì)管理勝任力相關(guān)數(shù)據(jù)進(jìn)行分類(lèi)。結(jié)合不確定性問(wèn)題，用概率來(lái)表示勝任力的隸屬度，使對(duì)管理勝任力素質(zhì)的分類(lèi)更加符合人們的思維習(xí)慣。并且利用新的規(guī)則啟發(fā)知識(shí)，對(duì)建立的模型進(jìn)行了精確度優(yōu)化，使之對(duì)勝任力素質(zhì)類(lèi)型的預(yù)測(cè)更加有效。
　　關(guān)鍵詞：數(shù)據(jù)挖掘" title="數(shù)據(jù)挖掘">數(shù)據(jù)挖掘；不確定性分析；關(guān)聯(lián)分類(lèi)；管理勝任力

　　現(xiàn)代企業(yè)的發(fā)展對(duì)人才管理的要求越來(lái)越高，企業(yè)如何制定一套適合自身行業(yè)特色的人力資源戰(zhàn)略，決定了企業(yè)能否吸引、留住人才，能否在競(jìng)爭(zhēng)激烈的市場(chǎng)中保持企業(yè)的競(jìng)爭(zhēng)優(yōu)勢(shì)。隨著人力資源管理在企業(yè)中的地位日益重要，其能否在企業(yè)中發(fā)揮重要作用，很大程度上取決于人力資源管理人員的管理勝任力素質(zhì)，即他們能否讓企業(yè)員工工作在合適的崗位上。
1 勝任力的定義與評(píng)估
1.1 勝任力的定義
　　自McClelland(1973)提出“勝任力”概念，中西方學(xué)者紛紛提出自己對(duì)勝任力(勝任特征)的理解。通過(guò)研究眾多學(xué)者給勝任力所下的定義，可以發(fā)現(xiàn)，勝任力有3個(gè)特點(diǎn)：(1)與特定工作相關(guān)；(2)可以在特定工作中創(chuàng)造高績(jī)效；(3)包含一些個(gè)人的特征，如特質(zhì)(Traits)、動(dòng)機(jī)(Motives)、自我概念(Self-image)、社會(huì)角色(Social-role)、態(tài)度(attitude)、價(jià)值觀(Value)、知識(shí)(Knowledge)、技能(Skill)等。
　　本文采用Spencer等人(1994)對(duì)勝任力的定義，即勝任力是指特質(zhì)、動(dòng)機(jī)、自我概念、社會(huì)角色、態(tài)度、價(jià)值觀、知識(shí)、技能等能夠可靠測(cè)量并可以把高績(jī)效員工與一般績(jī)效員工區(qū)分開(kāi)來(lái)的任何個(gè)體特征。其中，較容易通過(guò)培訓(xùn)、教育來(lái)發(fā)展的知識(shí)和技能是對(duì)任職者的基本要求，被稱(chēng)為基準(zhǔn)性勝任力(Threshold Competency)；而在短期內(nèi)較難改變和發(fā)展的特質(zhì)、動(dòng)機(jī)、自我概念、社會(huì)角色、態(tài)度、價(jià)值觀等高績(jī)效者在職位上獲得成功所必須具備的條件，被統(tǒng)稱(chēng)為鑒別性勝任力(Differentiating Competency)[1]。
1.2 勝任力的評(píng)估
　　傳統(tǒng)的勝任力評(píng)估主要以專(zhuān)家打分法確定勝任力素質(zhì)指標(biāo)，有別于此，本文的研究始于開(kāi)放式問(wèn)卷收集與勝任力素質(zhì)相關(guān)的條目，編制預(yù)試問(wèn)卷，然后篩選掉重要度或區(qū)分度不高的條目，形成最終問(wèn)卷。得到相關(guān)數(shù)據(jù)后，運(yùn)用關(guān)聯(lián)規(guī)則分類(lèi)方法對(duì)勝任力的評(píng)價(jià)與評(píng)價(jià)可能性進(jìn)行建模，獲取精確度較高的勝任力評(píng)估預(yù)測(cè)模型。
2 關(guān)聯(lián)分類(lèi)及其算法
2.1 基于關(guān)聯(lián)的分類(lèi)方法
　　關(guān)聯(lián)分類(lèi)規(guī)則挖掘的第一步就是發(fā)現(xiàn)所有的頻繁和準(zhǔn)確的可能規(guī)則，它們是類(lèi)別關(guān)聯(lián)規(guī)則[3]。若一個(gè)規(guī)則項(xiàng)目包含k個(gè)項(xiàng)目，就稱(chēng)這一規(guī)則項(xiàng)目集為k-ruleitems。算法利用與Apriori算法類(lèi)似的循環(huán)過(guò)程，只是用規(guī)則項(xiàng)目集替代了其中的項(xiàng)。
　　CBA(Classification-Based Association)算法就是一種在關(guān)聯(lián)分類(lèi)規(guī)則挖掘中發(fā)掘類(lèi)關(guān)聯(lián)規(guī)則的算法[2]。它是在Apriori算法的基礎(chǔ)上去發(fā)掘頻繁集和分類(lèi)規(guī)則的。
　　關(guān)聯(lián)規(guī)則挖掘的第二步就是對(duì)所獲得的CAR進(jìn)行處理以便構(gòu)造一個(gè)分類(lèi)器。由于為了獲得最準(zhǔn)確的規(guī)則集而要對(duì)所有的規(guī)則子集進(jìn)行檢查，這樣所要處理的規(guī)則數(shù)目極為龐大，因此必須采用啟發(fā)知識(shí)[3]。根據(jù)啟發(fā)規(guī)則，分類(lèi)器對(duì)所選的規(guī)則按優(yōu)先值從高到低排列。當(dāng)進(jìn)行分類(lèi)時(shí)，使用優(yōu)先值大且滿(mǎn)足條件的規(guī)則進(jìn)行分類(lèi)。此外，分類(lèi)器還應(yīng)包含一個(gè)缺省規(guī)則(具有最低優(yōu)先值)，當(dāng)其他規(guī)則都不滿(mǎn)足時(shí)，利用這一缺省規(guī)則對(duì)數(shù)據(jù)對(duì)象進(jìn)行分類(lèi)。
　　通常，關(guān)聯(lián)分類(lèi)方法要比C4.5等普通分類(lèi)算法更加準(zhǔn)確，且以上兩個(gè)步驟都具有線(xiàn)性可擴(kuò)展性。
2.2 利用關(guān)聯(lián)分類(lèi)解決分類(lèi)的不確定性問(wèn)題
　　計(jì)算機(jī)要模擬人的思維和判斷過(guò)程，就必須將人的語(yǔ)言中所具有的多義和不確定信息定量地表示出來(lái)，即不確定性問(wèn)題。這種方式更加自然，更加接近人的表達(dá)方式。目前利用貝葉斯網(wǎng)絡(luò)、模糊神經(jīng)網(wǎng)絡(luò)都能夠解決不確定性分類(lèi)的問(wèn)題。
　　關(guān)聯(lián)規(guī)則挖掘中將規(guī)則信任度表示為：c(A≥B)=P(B/A)=s(A∪B)/s(A)，其意義就是在A發(fā)生的前提下出現(xiàn)B的概率。如果把A看成條件，B看成一個(gè)類(lèi)，則可以表達(dá)為：在具備條件A的情況下，樣本屬于B類(lèi)的概率。本文以此利用關(guān)聯(lián)分析來(lái)解決不確定性分類(lèi)的問(wèn)題。
3 數(shù)據(jù)樣本的預(yù)處理
3.1 預(yù)測(cè)問(wèn)卷的因子分析
　　因子分析是從眾多的原始變量中構(gòu)造出少數(shù)幾個(gè)具有代表意義的因子變量，這里有一個(gè)潛在的要求，即原有變量之間要具有比較強(qiáng)的相關(guān)性，否則無(wú)法從中綜合出能反映某些變量共同特性的少數(shù)公共因子變量來(lái)[3]。因此，在因子分析時(shí)，需要對(duì)原有變量作相關(guān)分析。本文用KMO和球形Bartlett檢驗(yàn)，對(duì)變量進(jìn)行相關(guān)分析。
　　(1) KMO(Kaiser-Meyer-Olkin)檢驗(yàn)
　　KMO統(tǒng)計(jì)量用于比較變量間簡(jiǎn)單相關(guān)和偏相關(guān)系數(shù)，計(jì)算公式如下：

　　(2)巴特利特球形檢驗(yàn)（Bartlett Test of Sphericity）
　　巴特利特球形檢驗(yàn)是基于變量的相關(guān)系數(shù)矩陣的檢驗(yàn)方法[5]。它的零假設(shè)為相關(guān)矩陣是一個(gè)單位陣，即相關(guān)系數(shù)矩陣對(duì)角線(xiàn)上的所有元素都為1，所有非對(duì)角線(xiàn)上的元素都為零。巴特利特球形檢驗(yàn)的統(tǒng)計(jì)量是根據(jù)相關(guān)系數(shù)矩陣的行列式得到的。如果該值較大，且其對(duì)應(yīng)的相伴概率值小于給定的顯著性水平，就拒絕零假設(shè)，認(rèn)為相關(guān)系數(shù)矩陣不可能是單位陣，即原始變量之間存在相關(guān)性，適合于作因子分析；相反，如果該統(tǒng)計(jì)量值比較小，且對(duì)應(yīng)的相伴概率大于顯著性水平，則不能拒絕原假設(shè)，此時(shí)不宜作因子分析。
3.2 公共因子的提取
　　本文以旺旺集團(tuán)、廣州百事可樂(lè)集團(tuán)等八大現(xiàn)代企業(yè)的管理人員為研究對(duì)象，從發(fā)放開(kāi)放式問(wèn)卷出發(fā)，收集可能與勝任力特征相關(guān)的條目形成預(yù)試問(wèn)卷，應(yīng)用因子分析和方差分析方法對(duì)試卷進(jìn)行檢驗(yàn)和優(yōu)化，篩選掉荷載低或區(qū)分度低的問(wèn)題，最終生成包含40個(gè)問(wèn)題的問(wèn)卷。
　　用主成分法對(duì)最終問(wèn)卷中40個(gè)問(wèn)題的數(shù)據(jù)進(jìn)行因子分析。首先應(yīng)判斷數(shù)據(jù)是否適合進(jìn)行因子分析，此處仍然采用KMO和球度Bartlett檢驗(yàn)，檢驗(yàn)結(jié)果如表1所示。

　　由表1數(shù)據(jù)可知，KMO檢驗(yàn)值為0.875，根據(jù)Kaiser給出的標(biāo)準(zhǔn)0.8　　主成分分析研究如何通過(guò)原來(lái)變量的少數(shù)幾個(gè)線(xiàn)性組合來(lái)解釋隨機(jī)向量的方差-協(xié)方差結(jié)構(gòu)[3]。其作用為：(1)簡(jiǎn)化數(shù)據(jù)；(2)揭示變量間的關(guān)系。所謂主成分是指原來(lái)變量的線(xiàn)性組合，它們互不相關(guān)，且方差達(dá)到最大。采用主成分法，設(shè)定提取特征值大于1的因子，共提取了7個(gè)因子，其中特征值最大為15.810，最小為1.198。
　　根據(jù)因子的特征，本文提出7個(gè)公共因子的對(duì)應(yīng)解釋。
　　7個(gè)公共因子的解釋如圖1所示。

　　Fk取值為1～5，對(duì)應(yīng)了5個(gè)重要性級(jí)別，1最低，5最高。
　　得到7個(gè)公共因子得分結(jié)果以后，接下來(lái)根據(jù)公共因子得分對(duì)所有樣本數(shù)據(jù)進(jìn)行聚類(lèi)分析，以便確定如何對(duì)樣本的評(píng)判等級(jí)進(jìn)行分類(lèi)。
　　通過(guò)基于EM（基于期望最大化）算法的聚類(lèi)分析，樣本數(shù)據(jù)集聚成了三類(lèi)。本文把評(píng)判數(shù)據(jù)樣本的優(yōu)秀等級(jí)分為三級(jí)：優(yōu)秀，良好，普通。
　　管理勝任力素質(zhì)的評(píng)價(jià)預(yù)測(cè)模型，是多因素、多指標(biāo)綜合評(píng)價(jià)。在某一工作崗位上非常重要的知識(shí)和技能，在另外一個(gè)工作崗位上可能會(huì)成為制約其發(fā)展的阻礙因素。在一個(gè)組織中不同職務(wù)和不同管理層級(jí)所要求員工具備的勝任力內(nèi)容和水平也是不同的。因此，需要建立能適用科學(xué)可行的管理勝任力素質(zhì)評(píng)價(jià)體系，使企業(yè)做到人－崗匹配，發(fā)揮員工的最大能力。
　　本文把樣本的多級(jí)管理勝任力水平與樣本所在的崗位聯(lián)系起來(lái)，從而解決了長(zhǎng)期以來(lái)針對(duì)管理勝任力的研究沒(méi)有結(jié)合具體崗位的問(wèn)題。
4 建立基于關(guān)聯(lián)分類(lèi)的管理勝任力模型
　　首先，對(duì)2/3的樣本數(shù)據(jù)建立管理勝任力預(yù)測(cè)模型。把F1～F7七個(gè)屬性作為規(guī)則的左邊，并利用崗位和勝任力水平兩屬性的值共同決定一個(gè)類(lèi)別，設(shè)置最小支持度閾值和最小信任度閾值分別為0.3、0.6，對(duì)樣本數(shù)據(jù)進(jìn)行關(guān)聯(lián)分類(lèi)。
　　得到頻繁集后，進(jìn)而得到分類(lèi)規(guī)則。根據(jù)啟發(fā)知識(shí)對(duì)分類(lèi)規(guī)則排序并建立勝任力模型，表2是分類(lèi)規(guī)則的基本形式。

4.1 檢驗(yàn)?zāi)Ｐ途_度
　　本文用于建立模型的訓(xùn)練樣本是總樣本的2/3，為了檢驗(yàn)管理勝任力模型的預(yù)測(cè)精度，需要使用剩下的1/3的樣本作為測(cè)試數(shù)據(jù)集，對(duì)已經(jīng)建立的勝任力模型的精確度進(jìn)行評(píng)估。預(yù)測(cè)精度的檢驗(yàn)公式為：

　　其中Q_i為輸出值（預(yù)測(cè)值），y_i為真實(shí)值。
　　經(jīng)過(guò)與測(cè)試樣本的對(duì)比，本文得到的模型對(duì)測(cè)試數(shù)據(jù)集檢驗(yàn)的精確度為89.341%，預(yù)測(cè)成功率較高。部分檢驗(yàn)結(jié)果如表3所示。

4.2 模型的優(yōu)化
　　普通的關(guān)聯(lián)分類(lèi)算法(CBA)在建模過(guò)程中采用的是一種基本的啟發(fā)知識(shí)，如表4所示。這種啟發(fā)知識(shí)主要考慮支持度和信任度的不同來(lái)對(duì)規(guī)則進(jìn)行排序，然而當(dāng)兩條規(guī)則的支持度和信任度都相同時(shí)，啟發(fā)知識(shí)規(guī)定產(chǎn)生時(shí)間早的規(guī)則擁有優(yōu)先權(quán)。顯然，越早產(chǎn)生的規(guī)則所含的屬性越少，這說(shuō)明基本的啟發(fā)知識(shí)中含有這樣一條隱含規(guī)則：當(dāng)信任度和支持度相同時(shí)，規(guī)則左邊所含屬性少的規(guī)則的優(yōu)先權(quán)高。

　　然而，當(dāng)遇到大數(shù)據(jù)集時(shí)，這種方法并不是非常有效。例如，在大數(shù)據(jù)集時(shí)，關(guān)聯(lián)分類(lèi)方法可能產(chǎn)生上萬(wàn)條分類(lèi)規(guī)則，其中會(huì)有幾千條具有相同的支持度和置信度。根據(jù)以上的啟發(fā)知識(shí)，只能隨機(jī)選擇這些規(guī)則的優(yōu)先權(quán)，而對(duì)于那些擁有優(yōu)先權(quán)，它們有可能并不是最優(yōu)規(guī)則，所以會(huì)影響模型的準(zhǔn)確率。
　　在這里，根據(jù)以上的分析，本文提出了一項(xiàng)新的啟發(fā)知識(shí)，使得規(guī)則的優(yōu)先權(quán)確定更加完善合理，如表5所示。在兩條規(guī)則的支持度、信任度相同時(shí)，賦予所指的類(lèi)別在數(shù)據(jù)集中出現(xiàn)得更多的規(guī)則較高的優(yōu)先權(quán)。當(dāng)且僅當(dāng)它們都相同時(shí)，分類(lèi)器才選擇產(chǎn)生得早的規(guī)則。

　　經(jīng)過(guò)改進(jìn)后，新的啟發(fā)知識(shí)使規(guī)則與規(guī)則的關(guān)系更加明顯，同時(shí)也保證了好的規(guī)則擁有更高的優(yōu)先權(quán)，這就使得模型的準(zhǔn)確率有可能進(jìn)一步提高。
4.3 模型優(yōu)化后準(zhǔn)確率的對(duì)比
　　為了能說(shuō)明以上提出的模型優(yōu)化方法的有效性，本文同時(shí)也對(duì)WEKA 3.5.5所自帶的幾個(gè)數(shù)據(jù)集進(jìn)行了關(guān)聯(lián)規(guī)則分類(lèi)建模與優(yōu)化后精確度的對(duì)比，結(jié)果如表6所示。

　　通過(guò)以上對(duì)比可以看出，總的來(lái)說(shuō)，數(shù)據(jù)集在經(jīng)過(guò)優(yōu)化后的模型精度都是有所上升的。這說(shuō)明本文對(duì)啟發(fā)規(guī)則的優(yōu)化的確改進(jìn)了建模的精度，從而能夠提高模型的預(yù)測(cè)精度。
　　本文針對(duì)管理勝任力素質(zhì)，以旺旺集團(tuán)、廣州百事等企業(yè)的管理人員為研究對(duì)象獲取數(shù)據(jù)，考慮分類(lèi)的不確定性問(wèn)題，嘗試采用關(guān)聯(lián)規(guī)則分類(lèi)來(lái)建立管理勝任力預(yù)測(cè)模型，把對(duì)樣本勝任力的預(yù)測(cè)與崗位相聯(lián)系，在預(yù)測(cè)中增加了隸屬度的表示來(lái)幫助決策者做出決定，并使用了多級(jí)的評(píng)判標(biāo)準(zhǔn)，最后根據(jù)分析建模過(guò)程中規(guī)則的優(yōu)先級(jí)排序提出了優(yōu)化的規(guī)則啟發(fā)知識(shí)，使規(guī)則的排序更加完善，進(jìn)而使樣本的分類(lèi)準(zhǔn)確度更高，提高了模型精確率和效率。
參考文獻(xiàn)
[1] SPENCER L M，SPENCER S M.才能評(píng)鑒法：建立卓越的績(jī)效模式[M].魏梅金，譯.汕頭：汕頭大學(xué)出版社，2003.
[2] LIU B , MA Y .Integrating classification and association rule mining[C].Proc of the 4th International Conference on Knowledge Discovery and Data Mining， New York ,1998.
[3] HAN Jia Wei. Data mining-concepts and techniques[M]. 北京：機(jī)械工業(yè)出版社，2006.
[4] TAN Pang Ning, MS V. Introduction to data mining [M].北京：人民郵電出版社， 2006.
[5] 梁之舜，鄧集賢.概率論及數(shù)理統(tǒng)計(jì)(第二版)[M].北京：高等教育出版社，1988.

原創(chuàng)聲明：此內(nèi)容為AET網(wǎng)站原創(chuàng)，未經(jīng)授權(quán)禁止轉(zhuǎn)載。

相關(guān)內(nèi)容