123,123,123

基于误分类模式的乳腺癌诊断研究

2017年微型机与应用第2期

高集荣1，田艳2，杨永红1，刘清华1

1.中山大学计算机科学系，广东广州 510006；2.西安财经学院统计学院，陕西西安 710061

摘要： 乳腺癌已经成为当今世界影响妇女健康的重要疾病。对于乳腺癌诊断来说，当一个恶性病例被误分类为良性病例的时候，其代价远远大于一个良性病例被误分类为恶性病例。它利用数据挖掘领域的代价敏感相关方法，建立一个识别良性乳腺肿瘤和恶性乳腺肿瘤的诊断预测系统。在建模过程中充分考虑到误分类代价的因素，提出了误分类代价策略。通过一系列实验验证了所建立的模型。从实验结果来看，Adaboost与SVM的误分类组合分类算法在正确率和总误分类代价两个评估指标上得到了良好的效果。

關(guān)鍵詞： 数据挖掘代价敏感误分类代价乳腺癌

Abstract：

Key words :

　　高集榮1，田艷2，楊永紅1，劉清華1

　　(1.中山大學(xué) 計(jì)算機(jī)科學(xué)系，廣東廣州 510006；2.西安財(cái)經(jīng)學(xué)院統(tǒng)計(jì)學(xué)院，陜西西安 710061)

摘要：乳腺癌已經(jīng)成為當(dāng)今世界影響婦女健康的重要疾病。對于乳腺癌診斷來說，當(dāng)一個(gè)惡性病例被誤分類為良性病例的時(shí)候，其代價(jià)遠(yuǎn)遠(yuǎn)大于一個(gè)良性病例被誤分類為惡性病例。它利用數(shù)據(jù)挖掘領(lǐng)域的代價(jià)敏感相關(guān)方法，建立一個(gè)識別良性乳腺腫瘤和惡性乳腺腫瘤的診斷預(yù)測系統(tǒng)。在建模過程中充分考慮到誤分類代價(jià)的因素，提出了誤分類代價(jià)策略。通過一系列實(shí)驗(yàn)驗(yàn)證了所建立的模型。從實(shí)驗(yàn)結(jié)果來看，Adaboost與SVM的誤分類組合分類算法在正確率和總誤分類代價(jià)兩個(gè)評估指標(biāo)上得到了良好的效果。

　　關(guān)鍵詞：數(shù)據(jù)挖掘；代價(jià)敏感；誤分類代價(jià)；乳腺癌

　　中圖分類號：TP393.092文獻(xiàn)標(biāo)識碼：ADOI： 10.19358/j.issn.1674-7720.2017.02.004

　　引用格式：高集榮，田艷，楊永紅,等.基于誤分類模式的乳腺癌診斷研究［J］.微型機(jī)與應(yīng)用，2017,36（2）：10-13，16.

0引言

　　乳腺癌已經(jīng)成為當(dāng)今世界影響婦女健康的重要疾?。?］,全球乳腺癌發(fā)病率從上世紀(jì)70年代末起就一直呈上升趨勢。據(jù)美國的調(diào)查，平均每8名美國婦女中，就有一個(gè)人在其一生中可能患有乳腺癌疾病。據(jù)中國國家癌癥中心和衛(wèi)生部疾病預(yù)防控制局2012年公布的2009年乳腺癌發(fā)病數(shù)據(jù)顯示：全國腫瘤登記地區(qū)的女性惡性腫瘤排行榜上，乳腺癌發(fā)病率位居第1位。

　　乳腺癌的研究和治療歷史悠久，積累了不少的數(shù)據(jù)，如何從這些數(shù)據(jù)中發(fā)現(xiàn)有用的信息來輔助治療，成了當(dāng)下比較熱門的一個(gè)課題。數(shù)據(jù)挖掘技術(shù)和機(jī)器學(xué)習(xí)的不斷進(jìn)步，將這些技術(shù)用于乳腺癌的識別和預(yù)測是大勢所趨。再結(jié)合醫(yī)生本身的經(jīng)驗(yàn)來預(yù)測乳腺癌，這將是未來癌癥疾病的診斷模式。

　　國內(nèi)外對乳腺癌診斷預(yù)測的研究從未停止過，很多研究算法都得到了95%以上的正確率。但是這些研究所使用的數(shù)據(jù)集為威斯康星乳腺癌數(shù)據(jù)集，共收集病例樣本699個(gè)樣本，只有9個(gè)特征屬性。

　　本文使用到的良惡性乳腺腫瘤分析的數(shù)據(jù)為威斯康星乳腺癌診斷數(shù)據(jù)集，含有569個(gè)樣本(其中良性樣本357個(gè)，惡性樣本212個(gè))，30個(gè)特征維度［2］；近些年的乳腺癌挖掘研究大都采用此數(shù)據(jù)集。

　　在進(jìn)行乳腺癌診斷預(yù)測的過程中，降低誤診斷的風(fēng)險(xiǎn)是一個(gè)實(shí)際的需求。如果是惡性乳腺腫瘤被預(yù)測為良性，其帶來的后果比原本是良性的被預(yù)測為惡性的給病人帶來的后果會更嚴(yán)重。因此，本文引入誤分類代價(jià)，誤分類代價(jià)是一種代價(jià)敏感的策略，它定義了被誤分類為不同類型時(shí)所產(chǎn)生的成本是不同的。

1算法描述

　　基于誤分類的乳腺癌診斷預(yù)測建模主要分為兩個(gè)步驟：首先是對數(shù)據(jù)集中的數(shù)據(jù)進(jìn)行降維操作，乳腺癌細(xì)胞的特征屬性本來就很多，本數(shù)據(jù)集中含有30個(gè)特征屬性，如果直接對其進(jìn)行建模，所花費(fèi)的成本會很高，而且這么多特征屬性之中，可能存在噪聲數(shù)據(jù)，影響建模的效果；其次是使用基于誤分類代價(jià)的建模方法對其數(shù)據(jù)進(jìn)行訓(xùn)練和驗(yàn)證。文中重點(diǎn)考察了決策樹和SVM兩種分類方法，并且在研究中引入它們的誤分類策略。

　　1.1乳腺癌特征選擇的方法

　　降維方式基本分為兩種，特征選擇和特征變換。特征選擇方法依據(jù)是否獨(dú)立于后續(xù)的學(xué)習(xí)算法又分為過濾式和封裝式兩種［3］。過濾式與后續(xù)的學(xué)習(xí)分類算法無關(guān)，一般是直接利用所有訓(xùn)練數(shù)據(jù)的統(tǒng)計(jì)信息評估特征，其特點(diǎn)是速度快；封裝式利用后續(xù)學(xué)習(xí)算法的訓(xùn)練準(zhǔn)確率評估特征子集，其特點(diǎn)是偏差小，計(jì)算量大。特征變換不同于特征選擇之處在于其輸出結(jié)果不是原有的屬性，而是基于某種變換的原則所產(chǎn)生的新屬性。作為醫(yī)療診斷來說，不僅需要診斷預(yù)測的結(jié)果，還重視其推理的過程。由于變換后的屬性改變了原有屬性的物理特性，不可能看到其推理的結(jié)果，因此這里不討論特征變化方式。

　　本文研究的模型針對的是擁有30個(gè)屬性維度的數(shù)據(jù)集，屬于高維數(shù)據(jù)集。如果直接針對原始數(shù)據(jù)集采用分類方法，不僅成本較高，而且可能由于噪聲屬性的影響而降低精確度。

　　在絕大部分的特征選擇方法中，其核心部分在于對屬性特征重要性的評估，本文將選用三種特征重要度評估方式，其中一種是上文中提到的Fscores，另一種是在構(gòu)建決策樹過程中用于選擇分裂數(shù)據(jù)集時(shí)評估屬性的GINI方法，最后一種則是基于分類器的特征評估方式。選擇這三種評估方式的先驗(yàn)條件是假定每一個(gè)特征是獨(dú)立的，可以評估出每一個(gè)特征的重要程度，并按照重要程度進(jìn)行降序排序，從而根據(jù)需要選擇最重要的前N個(gè)特征屬性。

　　1.2乳腺癌誤分類代價(jià)的組合分類研究

　　在進(jìn)行了降維操作之后，需要對其進(jìn)行分類建模操作。本文除了要基本保持診斷預(yù)測的正確率之外，還要降低其誤分類診斷的總代價(jià)。這里將把誤分類代價(jià)的概念引入到乳腺癌診斷預(yù)測課題中，誤分類代價(jià)屬于代價(jià)敏感的一種。

　　1.2.1代價(jià)敏感

　　數(shù)據(jù)挖掘的本質(zhì)在于利用一個(gè)特定的數(shù)學(xué)模型來給某一個(gè)數(shù)據(jù)進(jìn)行分類，判定其類別，為了構(gòu)建出數(shù)學(xué)模型，需要從大量的數(shù)據(jù)中獲取信息，并發(fā)現(xiàn)其中蘊(yùn)含的規(guī)律，最后利用這個(gè)規(guī)律，也就是數(shù)學(xué)模型來預(yù)測一些數(shù)據(jù)，得到其可能的一個(gè)類別，這個(gè)類別是通過預(yù)測而來的，可能會和該數(shù)據(jù)真實(shí)的類別(假設(shè)只能在未來驗(yàn)證得知)不一致，這時(shí)就會出現(xiàn)一個(gè)分類正確率的問題，對于一個(gè)預(yù)測數(shù)學(xué)模型來說，正確率是一個(gè)非常重要的指標(biāo)。但是在實(shí)際應(yīng)用中，代價(jià)因素也是不得不考慮的一個(gè)問題。

　　分類的代價(jià)不平等性給基于代價(jià)敏感的數(shù)據(jù)挖掘方法帶來了全新的視角和方向。TURNEY P D［4］認(rèn)為代價(jià)具有抽象的意義，可以用不同的單位來進(jìn)行衡量，并且他歸納總結(jié)了分類過程中8種不同的代價(jià)類型：誤分類代價(jià)、測試代價(jià)、標(biāo)注代價(jià)、干預(yù)代價(jià)、計(jì)算代價(jià)、獲取實(shí)例代價(jià)、人機(jī)交互代價(jià)、不穩(wěn)定代價(jià)。

　　代價(jià)敏感，尤其是誤分類代價(jià)在機(jī)器學(xué)習(xí)中重點(diǎn)處理的是數(shù)據(jù)不平衡的情況，擔(dān)心大樣本類別數(shù)據(jù)在建模過程中對分類結(jié)果產(chǎn)生一定的傾斜。而對于本文所研究的問題而言，這卻是一個(gè)具有實(shí)際意義的問題。對于乳腺腫瘤良惡性診斷來說，當(dāng)一個(gè)惡性病例被誤分類為良性病例的時(shí)候，其代價(jià)遠(yuǎn)遠(yuǎn)大于一個(gè)良性病例被誤分類為惡性病例的代價(jià)(主要指對病人的關(guān)注)。

　　對于二元分類問題，一個(gè)實(shí)例本來是i類別的，但是在分類預(yù)測的時(shí)候被錯(cuò)誤地歸為類別j，Ci,j表示將類別為i的事物預(yù)測為類別j時(shí)所產(chǎn)生的代價(jià)。

　　一個(gè)二元分類的代價(jià)矩陣定義如表1所示。其中，正確分類的不會產(chǎn)生代價(jià)。誤分類代價(jià)的分類的目的就是要以最小誤分類代價(jià)建立以下模型：

　　TotalCost=C0,1*FN+C1,0*FP(1)

　　其中FN和FP分別為假負(fù)實(shí)例數(shù)和假正實(shí)例數(shù)。

　　1.2.2組合分類器誤分類策略

　　將誤分類策略分別引入到基礎(chǔ)分類器和組合分類器中，但是在大部分的誤分類研究中，主要是使用單一的分類器進(jìn)行誤分類建模，在上述給出的單一誤分類器中，從某種程度來說也改變了其建模過程中的一些步驟，因此可能與不引入誤分類策略后分類正確率有所出入。為此，使用組合分類模式來降低個(gè)體分類器在引入誤分類策略時(shí)所帶來的誤差，同時(shí)使用基于誤分類策略的組合分類模式，也能達(dá)到基礎(chǔ)分類器和組合分類器誤分類效果的疊加。

　　本文使用的基礎(chǔ)分類器有C45決策樹和SVM，使用的組合分類器有Adaboost與Bagging。其中Adaboost擁有誤分類策略，而Bagging盡管自身沒有誤分類策略，但是可以使用帶有誤分類策略的基礎(chǔ)分類器來達(dá)到其誤分類的效果。

2算法驗(yàn)證

　　本節(jié)著重根據(jù)上文提到的各種方法對乳腺癌數(shù)據(jù)進(jìn)行建模實(shí)驗(yàn)，從而構(gòu)建出基于誤分類代價(jià)的診斷預(yù)測系統(tǒng)。因篇幅所限，本文只列出了一部分。

　　2.1N-交叉驗(yàn)證

　　交叉驗(yàn)證是數(shù)據(jù)挖掘?qū)嶒?yàn)中常用的方法。在N交叉驗(yàn)證［56］中，將數(shù)據(jù)集隨機(jī)劃分為N份，并進(jìn)行N次實(shí)驗(yàn)。在每一次實(shí)驗(yàn)中，選取與之前不同的一份作為驗(yàn)證集，剩余N1份作為建立模型使用的訓(xùn)練集。

　　在本文的實(shí)驗(yàn)中會頻繁用到N交叉驗(yàn)證，例如在特征選擇的時(shí)候，需要經(jīng)過N交叉驗(yàn)證來確定特征屬性的重要程度；在建立預(yù)測診斷模型的時(shí)候，需要使用N交叉驗(yàn)證來評估預(yù)測的準(zhǔn)確性和總誤分類代價(jià)。

　　2.2評估標(biāo)準(zhǔn)

　　乳腺腫瘤良惡性診斷是一個(gè)分類問題，目前成熟的分類模型評估方式有：正確率、召回率、精確度、AUC、ROC曲線、混淆矩陣等。在混淆矩陣的基礎(chǔ)上，可以得到以上多個(gè)評估度量值。其中正確率(Acc)和錯(cuò)誤率(Err)是使用最廣泛的兩個(gè)基礎(chǔ)度量標(biāo)準(zhǔn)，其公式如下：

　　 ]XTT)_FDS@8KOYIRO6QYX7R.png

　　除了基本的正確率和錯(cuò)誤率之外，由于本文重點(diǎn)考察的是基于代價(jià)敏感的乳腺腫瘤良惡性診斷。在前文的描述中也提到，一個(gè)惡性乳腺癌患者被診斷為良性所付出的代價(jià)遠(yuǎn)比一個(gè)良性乳腺腫瘤患者被診斷為惡性所付出的代價(jià)要高得多。所以本文所做研究是，除預(yù)測結(jié)果基本保持在一個(gè)比較高的水準(zhǔn)之外，還需要預(yù)測的代價(jià)盡可能地小。下面給出基本準(zhǔn)則去判斷實(shí)驗(yàn)評估指標(biāo)，即預(yù)測產(chǎn)生的錯(cuò)誤總代價(jià)(TotalCost)。

　　表2給出了乳腺癌預(yù)測的代價(jià)矩陣，其中如果本身為良性乳腺腫瘤而預(yù)測為良性，由于預(yù)測是正確的，因此不會產(chǎn)生代價(jià)，惡性乳腺腫瘤預(yù)測為惡性也是同樣的道理。而如果本身是良性乳腺腫瘤被診斷為惡性的話，其花費(fèi)的代價(jià)是C0,1，如果本身是惡性乳腺腫瘤而被診斷為良性的話，其花費(fèi)的代價(jià)為C1,0，其中C1,0>C0,1。由此可以得到式（4）：

　　TotalCost=FN*C0,1+FP*C1,0(4)表2代價(jià)矩陣預(yù)測正類(預(yù)測良性)預(yù)測負(fù)類(預(yù)測惡性)實(shí)際正類(實(shí)際良性)0C0,1實(shí)際負(fù)類(實(shí)際惡性)C1,00

　　本文希望達(dá)到的目標(biāo)是：在保持正確率不會有太大下降的情況下，降低總的誤分類代價(jià)。

　　2.3誤分類組合建模實(shí)驗(yàn)

　　在組合不同誤分類代價(jià)策略時(shí)，基本分類器均具有其誤分類代價(jià)策略，可以進(jìn)行對比試驗(yàn)，而組合分類器只有Adaboost具有誤分類策略，可考慮將基礎(chǔ)誤分類與Bagging組合分類器，而Adaboost可對比采用誤分類策略與不采用誤分類策略的效果，并同時(shí)與基礎(chǔ)分類器的誤分類策略進(jìn)行整合。

　　為了看出誤分類策略的效果，需要設(shè)計(jì)對比試驗(yàn)，下面針對每一個(gè)基礎(chǔ)分類器設(shè)計(jì)了幾組對比試驗(yàn)。表3給出了需要對比的實(shí)驗(yàn)，以證實(shí)在建模過程中確實(shí)有誤分類策略的效果。

　　本文采用的誤分類矩陣為0101000,使用的數(shù)據(jù)集為乳腺腫瘤疾病良惡性診斷集，有兩個(gè)類型，0表示良性，1表示惡性，根據(jù)前文對于良惡性誤分類代價(jià)的分析判斷，得cost(1,0)=10,cost(0,1)=100。

　　本文所采用的數(shù)據(jù)挖掘的基礎(chǔ)程序來自Weka3.6。懷卡托智能分析環(huán)境(Waikato Environment for Knowledge Analysis，Weka)是一款免費(fèi)的、非商業(yè)化的挖掘工具，基于Java環(huán)境的開源的機(jī)器學(xué)習(xí)以及數(shù)據(jù)挖掘軟件。源代碼可在其官方網(wǎng)站下載，其中的C45基礎(chǔ)算法也來自該官網(wǎng)。

　　SVM則采用LIBSVM的Java版本，LIBSVM是臺灣大學(xué)林智仁等人開發(fā)設(shè)計(jì)的一個(gè)簡單、易于使用和快速有效的SVM模式識別與回歸軟件包，不但提供了編譯好的可在Windows操作系統(tǒng)上執(zhí)行的文件，還提供了源代碼，方便改進(jìn)、修改以及在其他操作系統(tǒng)上應(yīng)用。

　　(1) C45算法結(jié)果分析

　　首先展示Adaboost+C45算法的結(jié)果，以便與后期結(jié)果進(jìn)行對照。

　　(2) SVM算法結(jié)果分析

　　SVM在此問題上有很好的處理效果。這里可以對其進(jìn)行分析比較，研究其在誤分類代價(jià)的情況下的處理效果。本文采用的是LIBSVM的Java版本，其中一些參數(shù)均為默認(rèn)值，其中核函數(shù)采用的是RBF核函數(shù)。

　　圖1、圖2分別給出了正確率、總代價(jià)曲線，表4給出了不采取誤分類策略的Adaboost+SVM的最高評估值?！　?/p>

　　從實(shí)驗(yàn)結(jié)果可以看出，盡管Adaboost+SVM組合模式的正確率非常高，但是其代價(jià)也不低，主要原因在于其高誤分類代價(jià)的個(gè)數(shù)比較多。而采用SVM的誤分類策略組合模式可能可以做到既擁有比較高的分類正確率，又能減少其高代價(jià)誤分類的個(gè)數(shù)，從而降低總的誤分類代價(jià)。

　　從對比實(shí)驗(yàn)可以看出，SVM在誤分類代價(jià)策略效果下表現(xiàn)得比決策樹都要好一些。其相對較高的正確率是一個(gè)重要原因，從SVM和決策樹兩者的表現(xiàn)來看，SVM構(gòu)建模型的分類正確率遠(yuǎn)高于決策樹，因而被誤分類的個(gè)數(shù)要小于決策樹；另一原因是在采用了誤分類代價(jià)策略之后，惡性乳腺腫瘤被診斷為良性的個(gè)數(shù)比不采用誤分類策略時(shí)減少了，所以總的誤分類的代價(jià)才會減少。

　　實(shí)驗(yàn)結(jié)果表明，大部分實(shí)驗(yàn)都達(dá)到了其降低總誤分類代價(jià)的目的，而且能保持比較高的正確率：Adaboost與SVM的誤分類組合分類算法不僅正確率達(dá)到了98.23%，而且將總誤分類代價(jià)從600左右降到了330。

　　3結(jié)論

　　本文結(jié)合傳統(tǒng)的基礎(chǔ)分類算法，運(yùn)用組合分類模式進(jìn)行診斷預(yù)測，并針對乳腺癌樣例的特征屬性采取了降維的處理，旨在降低建模過程的成本和對樣例進(jìn)行預(yù)測時(shí)的成本，并希望清除噪聲屬性。同時(shí)，也將代價(jià)敏感的概念引入到乳腺癌診斷過程中。在建模過程中，將誤分類代價(jià)策略和基礎(chǔ)分類模式、組合分類模式Bagging和Adaboost進(jìn)行整合修改，以便能在保持較高正確率的情況下，降低總的誤分類代價(jià)。設(shè)計(jì)了對比試驗(yàn)，以便能得出最優(yōu)的組合分類模式；在此基礎(chǔ)上采用粒子群算法，以最低誤分類代價(jià)為評估標(biāo)準(zhǔn)，采用上述組合實(shí)驗(yàn)中的最佳組合分類方法，選擇出最穩(wěn)定的低誤分類代價(jià)的特征屬性和相關(guān)參數(shù)值。

　　參考文獻(xiàn)

　?。?］ The Women’s Health Resource .What is breast cancer［EB/OL］.(2013-06-10)［2016-07-28］.http://www.imaginis.com/general informationonbreastcancer/whatisbreastcancer2.

　?。?］ UCI Machine Learning Repository. Wisconsin breast cancer dataset［EB/OL］. （20120630）［2016-07-28］http://archive.ics.uci.edu/ml/datasets.html-format=&task=cla&att=&area=&numAtt=&numIns=&type=&sort=.

　　［3］姚旭.特征選擇方法綜述［J］.控制與決策.2012,127（2）:35-40.

　?。?］ TURNEY P D. Types of cost in inductive concept learning［C］. Workship on CostSensitive Learning at ICML, 2000:15-21.

　?。?］ DUPRET, G. KODA, M. Theory and methodology: boostrap resampling for unbalanced data in supervised learning［J］. Eropean Journal of Operational Research，2001，134（1）, 141-156.

　　［6］ GOOD,P.I. Resampling methods: a practical guide to data analysis (3rd Edition)［M］. Birkhauser, 2006.

原創(chuàng)聲明：此內(nèi)容為AET網(wǎng)站原創(chuàng)，未經(jīng)授權(quán)禁止轉(zhuǎn)載。

相關(guān)內(nèi)容