
隨著我國證券市場(chǎng)機(jī)制和企業(yè)破產(chǎn)制度的完善,信用風(fēng)險(xiǎn)問題日益突出,不但使企業(yè)遭受巨大損失,而且直接影響企業(yè)的生存和發(fā)展;此外,大量上市公司存在信用風(fēng)險(xiǎn)時(shí),將有可能引發(fā)金融危機(jī)。因此,對(duì)上市公司信用風(fēng)險(xiǎn)的管理是非常必要和迫在眉睫的。而上市公司信用風(fēng)險(xiǎn)評(píng)估模型的建立是防范信用風(fēng)險(xiǎn)的重要手段,因此,研究上市公司信用風(fēng)險(xiǎn)評(píng)估這一課題,已經(jīng)成為我國目前經(jīng)濟(jì)生活中亟待解決的一個(gè)重要問題。
目前許多定量技術(shù)和支持工具、軟件已付諸商業(yè)應(yīng)用,繼傳統(tǒng)的比例分析之后,統(tǒng)計(jì)方法得到了廣泛的應(yīng)用,如判別分析和Logistic回歸等。信用等級(jí)評(píng)估是通過對(duì)企業(yè)或個(gè)人的某些單一財(cái)務(wù)指標(biāo)進(jìn)行加權(quán)平均確定的。該方法的最大缺陷在于指標(biāo)和加權(quán)值的確定帶有很大的主觀性,使得評(píng)估結(jié)果和實(shí)際狀況有很大的出入。因此需要引入科學(xué)方法來確定有效評(píng)估指標(biāo),并建立準(zhǔn)確的定量模型來解決信用等級(jí)評(píng)估的問題。近年來,信息技術(shù)得到了迅速發(fā)展,如數(shù)據(jù)挖掘技術(shù)等能從海量數(shù)據(jù)中智能發(fā)現(xiàn)有用的規(guī)則和知識(shí),再加上我國上市公司信息披露制度的不斷完善,使得我們的研究能夠得到的數(shù)據(jù)資料也不斷的增多,這些有利條件的出現(xiàn)使得我們對(duì)基于數(shù)據(jù)挖掘的上市公司信用風(fēng)險(xiǎn)評(píng)估模型的研究具有了數(shù)據(jù)基礎(chǔ)和技術(shù)基礎(chǔ)。
一、模型簡(jiǎn)介
?。ㄒ唬Q策樹算法 決策樹是對(duì)已知類別的數(shù)據(jù)樣本進(jìn)行歸納學(xué)習(xí)獲得的樹形結(jié)構(gòu),樹內(nèi)每個(gè)非葉節(jié)點(diǎn)代表對(duì)一個(gè)屬性取值的測(cè)試,每個(gè)葉節(jié)點(diǎn)代表一個(gè)類別。決策樹方法利用信息理論的信息增益選擇具有最大信息量的屬性來建立決策樹的一個(gè)節(jié)點(diǎn),再根據(jù)屬性字段的不同取值來建立樹的分枝,如此對(duì)每個(gè)分枝重復(fù)遞歸建立整個(gè)決策樹。產(chǎn)生決策樹的基本算法如下:
輸入:訓(xùn)練樣本,各屬性均取離散數(shù)值,可供歸納的備選屬性集合為attribute_list。
輸出:決策樹
算法:Gen_decision_tree
創(chuàng)建一個(gè)節(jié)點(diǎn) Node;
IF 該節(jié)點(diǎn)中的所有樣本均為同一類別c THEN返回Node 作為一個(gè)葉節(jié)點(diǎn)并標(biāo)志為類別c;
IF attribute_list 為空 THEN返回Node作為一個(gè)葉節(jié)點(diǎn)并標(biāo)記為該節(jié)點(diǎn)所含樣本中類別個(gè)數(shù)最多的類別;
從attribute_list 選擇一個(gè)信息增益最大的屬性 test_attribute;
將節(jié)點(diǎn)Node標(biāo)記為 test_attribute;
根據(jù)test_attribute=Vi條件,從節(jié)點(diǎn)Node產(chǎn)生相應(yīng)的一個(gè)分枝,且設(shè)Si為根據(jù)該分枝條件所獲得的樣本集合;
IF Si 為空 THEN將相應(yīng)葉節(jié)點(diǎn)標(biāo)志為該節(jié)點(diǎn)所含樣本中類別個(gè)數(shù)最多的類別,ELSE,將相應(yīng)葉節(jié)點(diǎn)標(biāo)志為由Gen_decision_tree(Si,attribute_list, test_attribute)返回的值。
其中,信息增益的計(jì)算方法為:設(shè)S為一個(gè)包含S個(gè)數(shù)據(jù)樣本的集合,類別屬性可以取 N個(gè)不同的值,對(duì)應(yīng)于N個(gè)不同的類別Cj,j∈{1,2,3,…,N},Sj為類別Cj中的樣本個(gè)數(shù)。那么對(duì)一個(gè)給定數(shù)據(jù)對(duì)象進(jìn)行分類所需的信息量為:
Infor(S1,S2,…SN)=-■pj log2(pj) (1)
其中,pj是任意一個(gè)數(shù)據(jù)對(duì)象屬于類別Cj的概率,即pj=Sj /S。設(shè)屬性V取v個(gè)不同的值{V1,V2…,Vv},則利用屬性V可以將集合S劃分為v個(gè)子集{S1,S2…,Sv},其中Si包含了集合S中屬性V取Vi值的那些樣本。設(shè)Sij為子集Si中屬于Cj類別的樣本個(gè)數(shù)。那么利用屬性V劃分當(dāng)前樣本集合所需要的信息熵可以計(jì)算如下
Entr(V)=■■Infor(S1,S2,…SN) (2)
Infor(Si1,Si2,…SiN)=-■pijlog2(pij) (3)
pij=■ (4)
這樣利用屬性V對(duì)樣本集合進(jìn)行劃分所獲得的信息增益為:
Cain(V)=Infor(S1,S2,…SN)-Entr(V) (5)
?。ǘ㎏最近鄰法 K最近鄰法簡(jiǎn)稱KNN算法,在理論上是比較成熟的方法,最初于1968年由Cover 和Hart提出,其思路非常簡(jiǎn)單直觀。KNN方法是一種有監(jiān)督學(xué)習(xí)的分類算法,它并不需要產(chǎn)生額外的數(shù)據(jù)來描述規(guī)則,它的規(guī)則就是數(shù)據(jù)(樣本)本身,并不要求數(shù)據(jù)的一致性問題,也就是說K最近鄰法在一定程度上減小了噪聲樣本對(duì)分類的干擾。KNN根據(jù)未知樣本的K個(gè)最近鄰樣本來預(yù)測(cè)未知樣本的類別,K個(gè)最近鄰樣本的選擇是根據(jù)一定的距離公式判定的。
KNN分類算法的基本原理為:首先將待分類樣本y表達(dá)成和訓(xùn)練樣本庫的樣本一致的特征向量;然后根據(jù)距離函數(shù)計(jì)算待分類樣本y和每個(gè)訓(xùn)練樣本的距離,選擇與待分類樣本距離最小的K個(gè)樣本作為y的K個(gè)最近鄰;最后根據(jù)y的K個(gè)最近鄰判斷y的類別。KNN算法必須明確兩個(gè)基本的因素:最近鄰樣本的數(shù)目K和距離的尺度。K表示選擇參考樣本的數(shù)目,距離尺度對(duì)應(yīng)一個(gè)非負(fù)的函數(shù),用來刻畫不同數(shù)據(jù)間的相似性程度。在KNN算法里對(duì)于模型的選擇(尤其是K值)往往是通過對(duì)大量獨(dú)立的測(cè)試數(shù)據(jù)、多個(gè)模型來驗(yàn)證最佳選擇。
?。ㄈ㎜ogistic回歸模型 Logistic回歸模型是一種非線性概率模型,其因變量是分類變量只有0和1兩個(gè)取值。回歸模型可表述為
p=■
s=cj+■ckxk
其中xk(k=1,2...,m)為上市公司信用風(fēng)險(xiǎn)評(píng)定中的影響變量, cj(j=1,2...,m)為回歸系數(shù),通過回歸或極大似然估計(jì)獲得, Logistic回歸值p∈(0,1)為信用風(fēng)險(xiǎn)分析的判別結(jié)果。P是的連續(xù)增函數(shù),S∈(-∞,+∞)。并且
■p=■■=1
■p=■■=0
對(duì)某上市公司i(i=1,2...,n)來說,如果其Logistic回歸值pi接近于0或(pi≈0),則被判定為一類經(jīng)營(yíng)差的企業(yè),若其Logistic回歸值pi接近于1或(pi≈1),則被判定為經(jīng)營(yíng)好的企業(yè)。并且pi值越遠(yuǎn)離0,表示該企業(yè)陷入財(cái)務(wù)困境的可能性越??;反之,表示該企業(yè)陷入則務(wù)困境的可能性越大。
二、基于決策樹的上市公司信用風(fēng)險(xiǎn)評(píng)估模型實(shí)證分析
?。ㄒ唬┲笜?biāo)體系建立 通過綜合考慮信用風(fēng)險(xiǎn)的各種影響因素,借鑒我國財(cái)政部統(tǒng)計(jì)評(píng)價(jià)司的企業(yè)效績(jī)?cè)u(píng)價(jià)指標(biāo)體系和國有商業(yè)銀行企業(yè)資信評(píng)估指標(biāo)體系以及國內(nèi)外有關(guān)文獻(xiàn)的相關(guān)指標(biāo),在分類、匯總、整理的基礎(chǔ)上,同時(shí)兼顧數(shù)據(jù)的可獲取性原則和可量化原則,從企業(yè)盈利能力、償債能力、營(yíng)運(yùn)能力和發(fā)展能力4個(gè)方面,選取了10個(gè)財(cái)務(wù)指標(biāo)。
(1)盈利能力指標(biāo)。企業(yè)獲利能力是企業(yè)信用的基礎(chǔ),企業(yè)只有盈利,才有可能按時(shí)償還債務(wù)。本文選取的反映企業(yè)贏利能力的指標(biāo)有凈資產(chǎn)收益率X1、銷售(營(yíng)業(yè))利潤(rùn)率X2。
?。?)償債能力指標(biāo)。償債能力是企業(yè)資信的保證,企業(yè)償債能力如何,通常是評(píng)估企業(yè)資信評(píng)級(jí)最直接的依據(jù),償債能力歸根結(jié)底是企業(yè)自有資產(chǎn)的變現(xiàn)能力。本文選取的反映企業(yè)償債能力的指標(biāo)有流動(dòng)比率X3、速動(dòng)比率X4和資產(chǎn)負(fù)債率X5。
?。?)營(yíng)運(yùn)能力指標(biāo)。營(yíng)運(yùn)能力分析是對(duì)企業(yè)資金周轉(zhuǎn)狀況進(jìn)行的分析,資金周轉(zhuǎn)得越快,說明資金利用效率越高,企業(yè)的經(jīng)營(yíng)管理水平越好。本文選取的反映企業(yè)營(yíng)運(yùn)能力的指標(biāo)有總資產(chǎn)周轉(zhuǎn)率X6、存貨周轉(zhuǎn)率X7和應(yīng)收賬款周轉(zhuǎn)率X8。
(4)發(fā)展能力指標(biāo)。發(fā)展能力反映企業(yè)未來發(fā)展前景及潛力。本文選取的反映企業(yè)發(fā)展能力的指標(biāo)有資本積累率X9和總資產(chǎn)增長(zhǎng)率X10。
將上市公司分為兩組,第1組包含ST公司,認(rèn)為該類企業(yè)具有較大的財(cái)務(wù)風(fēng)險(xiǎn)。非ST公司作為第2組,認(rèn)為該類企業(yè)財(cái)務(wù)狀況正常。若模型將ST組樣本判為非ST組,則稱為犯第一類錯(cuò)誤;將非ST組樣本判為ST組,則稱為犯第二類錯(cuò)誤。
?。ǘ颖具x取 樣本的選取為兩分類模式,即違約和不違約。將ST上市公司作為財(cái)務(wù)狀況異常一類,也即會(huì)發(fā)生違約的一類;將非ST公司作為財(cái)務(wù)狀況正常的一類,即不會(huì)發(fā)生違約的一類。ST公司是指出現(xiàn)財(cái)務(wù)狀況或其他狀況異常,導(dǎo)致投資者難于判斷公司的前景,權(quán)益可能受到損害的公司。
本文實(shí)證分析中的原始數(shù)據(jù)來自于色諾芬數(shù)據(jù)庫,隨機(jī)選取我國深、滬兩市交易所2009年公布的60家ST公司作為一類經(jīng)營(yíng)“差”的企業(yè),同時(shí)另隨機(jī)選取75家不虧損公司作為一類經(jīng)營(yíng)“正?!钡钠髽I(yè)與之相匹配,因此,數(shù)據(jù)樣本集由135家上市公司組成,然后從中任選30家ST公司及38家非ST公司組成訓(xùn)練樣本集,余下的67家公司組成測(cè)試樣本集。
(三)模型構(gòu)造與檢驗(yàn) 構(gòu)造決策樹,關(guān)鍵是找到樣本空間的最優(yōu)劃分,ID3算法的屬性選擇策略就是選擇信息增益最大的屬性作為測(cè)試屬性,從而確定樣本空間的一個(gè)劃分。但I(xiàn)D3算法存在著輸出分支多,預(yù)測(cè)可靠性性差的問題。C4.5算法從ID3算法演變而來,提出用信息增益比來作為測(cè)試屬性選擇的依據(jù),通過大量的實(shí)驗(yàn)測(cè)試表明:用C4.5算法構(gòu)造的決策樹較ID3算法的預(yù)測(cè)效果有更好的可靠性和健壯性。實(shí)驗(yàn)?zāi)P瓦\(yùn)用數(shù)據(jù)挖掘軟件WEKA3.6.3,根據(jù)C4.5算法以信息增益比最大為原則選取節(jié)點(diǎn)生成決策樹,如圖1所示。
最終選出了6個(gè)好的屬性作為決策樹節(jié)點(diǎn),X5為根節(jié)點(diǎn),也就是資產(chǎn)負(fù)債率對(duì)于違約和履約分類的貢獻(xiàn)程度是最大的。括號(hào)中的數(shù)代表平均有幾個(gè)樣本數(shù)據(jù)根據(jù)條件被分到了相應(yīng)的類中,用10 次迭代交叉驗(yàn)證法來驗(yàn)證模型的誤差率,驗(yàn)證結(jié)果如下:
正確分類的樣本數(shù) 58 86.5671 %
錯(cuò)誤分類的樣本數(shù) 9 13.4328 %
?。ㄋ模┙Y(jié)果分析 本文運(yùn)用決策樹模型與Logistic和K最近鄰模型進(jìn)行了比較分析。從結(jié)果來看,三種模型都具有較好的預(yù)警效果,但相比之下,決策樹模型的總體判定準(zhǔn)確率更高,說明決策樹模型對(duì)樣本所包含的數(shù)據(jù)信息的學(xué)習(xí)比較充分。作為一種非線性映射,數(shù)據(jù)之間的自相關(guān)性以及個(gè)別數(shù)據(jù)的缺失對(duì)模型的預(yù)測(cè)效果影響不大。因此,決策樹在分析和研究上市公司信用風(fēng)險(xiǎn)方面,具有良好的應(yīng)用前景。
從表中可以看出,決策樹在測(cè)試樣本集中的整體準(zhǔn)確率(也即預(yù)測(cè)準(zhǔn)確率) 達(dá)到了87%,明顯好于Logistic和K最近鄰模型的78% 。在本實(shí)驗(yàn)過程中,在建立模型時(shí)考慮的是整體準(zhǔn)確率,從這一角度看,決策樹模型具有一定的優(yōu)勢(shì)。從三種模型的結(jié)果中比較,訓(xùn)練樣本第一類錯(cuò)誤率明顯高于測(cè)試樣本的第一類錯(cuò)誤率。對(duì)此問題目前還不能做機(jī)理上的解釋,但這種現(xiàn)象恰好是希望得到的。
通過表1,還可以對(duì)模型的魯棒性做一個(gè)比較。對(duì)于訓(xùn)練樣本集,決策樹的整體準(zhǔn)確率是最高的,達(dá)到了75%,其次是Logistic模型的74%,效果最差的是K最近鄰模型的66%。在測(cè)試樣本集中,準(zhǔn)確率(預(yù)測(cè)準(zhǔn)確率) 都有了不同程度的上升。變化率最大的是決策樹,為12%;其次是K最近鄰模型,為8%;變化率最小的是Logistic,僅為4%。可以看出,在三種模型中,決策樹模型的魯棒性最差,Logistic模型的魯棒性最好。決策樹模型的魯棒性雖然不是最好的,但也保持了一個(gè)較好的水平,能夠滿足實(shí)際應(yīng)用的要求。
綜上所述,本文以我國上市公司作為研究對(duì)象,以因財(cái)務(wù)狀況異常而被特別處理作為界定上市公司陷入財(cái)務(wù)困境的標(biāo)志,采用交叉驗(yàn)證技術(shù)建立決策樹模型,并與Logistic和K最近鄰模型進(jìn)行了比較分析。實(shí)證結(jié)果表明決策樹模型能有效地預(yù)測(cè)上市公司的信用風(fēng)險(xiǎn),且適用性較好。當(dāng)然,在分析過程中,存在以下有待改進(jìn)之處,如:以上市公司樣本代替所有企業(yè),可能會(huì)造成典型性不強(qiáng)的問題;只考慮財(cái)務(wù)因素作為影響變量,未對(duì)非財(cái)務(wù)因素(如行業(yè)因素、其他宏觀因素)加以考慮。