在這裏我們探討的一個話題,
分類。首先說下爲什麼要分類以及它的意義,在我們的世界裏有很多不同的東西需要我們去研究,然而由於現實世界的紛繁複雜,千頭萬緒,我們很難一下子看出所有事物的特性,爲了降低我們的研究事物的難度,也爲了能夠更好的認清事物,我們對世界上的東西進行了分門別類的研究處理,打個比方,例如生物學上,我們把生物分成了,原核生物、真核生物、病毒,而後針對每樣事物進行研,由於同一類別的事物有他們的共性之處,這樣可以做到觸類旁通事半功倍,同時也更好的瞭解到了這些事物。在這裏我們不去討論哲學上廣義的分類概念,我們來研究下數學上的分類概念。 在數學上如何去定義分類這個含義呢,我們會想到分類就是將某個事物貼上標籤的過程,例如,一個文本它是教育類的文章,我們就把它貼上”教育”這個標籤,這個貼的過程就是分類。這裏我們假設有一些標籤集合
F={A,B,C,D….},分類就是將現實的事物貼上這些指定的標籤的過程。爲了進一步的使得我們更好的利用數學知識來分析事物,我們需要將事物
量化,就像計算機需要將連續的信號離散化一樣,我們也需要將給定的事物進行量化,而量化所得結果我們將其定義在
Rn 歐氏空間中,我們先不詳說量化的過程(這實際上是特徵提取與選擇加打分的過程)在以後的章節中我們再詳細敘說。 上面剛剛說到我們量化所得結果爲
Rn空間中的一個點
τ,分類就是將這些點貼上A,B,C,D等等其中之一的標籤,換句話說就是
判別給定的一個點 τ它是屬於哪一個給定的集合。如何確定給定的一個點是否屬於這個集合呢,一個想當然的想法就是看這個點是不是在這個集合中,這是最簡單也是最有效的想法,可是現實是我們並不知道這個集合裏的所有點亦或是即使知道集合的所有點但是判別成本太高,在這樣的情況下又該如何去判別呢?這裏我們回到人是怎麼做的,現實情況下我們是如何確定一個事物屬於哪一類的呢。在
有具體判定標準的情況下,例如顏色區分,成績的優劣,我們是
利用這個給定的規則,而
在沒有具體判定標準的情況下,大多數也許會說:“它就是這個類別啊!”諸如此類的話,很顯然他們是
憑藉自己的經驗。在這我們進一步的明確目的,我們來
討論在沒有明確判定標準下數學上我們該如何進行分類。 剛纔說到在現實情況下我們是利用我們的經驗來進行分類的,這裏就要問了,“經驗”是個什麼東西,我們的經驗又是從何而來的呢,又該如何利用經驗來進行分類呢?下面我們來依次回答這些問題。 經驗,在哲學上指人們在同客觀事物直接接觸的過程中通過感覺器官獲得的關於客觀事物的現象和外部聯繫的認識。在日常生活中,亦指對感性經驗所進行的概括總結,或指直接接觸客觀事物的過程。這裏提到了一點,
經驗是我們對客觀事物規律的總結,它反映在我們的人腦之中,在數學上這些存儲在人腦之中的客觀規律就是一些數學模型。也就是說人腦之中存儲了了一些對現實世界抽象的數學模型,我們沒有辦法得知一個人腦之中存儲的數學模型的具體細節,但是我們可以觀察發現,人的這些經驗模型不是天生就有的,而是通過後天的不斷學習所得到的,換句話說人腦的這些經驗模型可惜通過學習而得到,通過總結以往的觀察結果來獲取經驗,這也就回答了我們的經驗是從何而來的,答案是
經驗是從對以往的案例中學習而來。既然說到學習,也許你會問,我們是怎麼通過案例學習的呢,對於人腦這是一個很複雜的問題,或許腦科學家某一天會給出我們一個完整而滿意的答案,這裏我們相對這個問題進行簡化,我們想的是在數學上如何模仿人的這些學習能力,通過對以往的案例(也即樣本)進行學習,往後的章節裏我們探討如何來進行來模仿人的學習能力,讓我們繼續當前的話題,來繼續回答最後一個問題,利用怎樣利用經驗來進行分類,剛剛說到經驗是數學模型,很自然
利用經驗分類也就變成了利用這些數學模型進行分類。 總結前述,在數學上我們對給定的事物進行分類,可以通過對給定樣本的樣本點,利用可以學習的模型性進行學習,而後再對以後給定的數據利用這個學習所得的模型進行分類,整個分類的過程就變成了判別
Rn空間中的點所處在那個集合的問題。