第119章 高中課程裡有這些?

這兩天他利用碎片時間,稍微補了補高數知識,這才真正動筆。

江寒將近期一些想法整理了一下,羅列了個大綱出來。

很多機器學習分類算法,都要求假設數據線性可分,“感知機”也不例外。

如果數據不是線性可分的,就必須採用一些特殊的方法,把數據非線性地投射到更高的維度上。

在高維空間裡,數據更有可能變成線性可分的,這就是所謂的Cover定理。

對於感知機來說,處理線性不可分的問題,有個最簡單的解決辦法,那就是把單層感知機拓展爲多層感知機。

多層感知機的關鍵,在於如何訓練各層之間的連接權值。

一種常用的辦法是隻訓練某兩層間的連接權值,而將其它連接權值進行固定。

可以從數學上證明,對於所有非線性可分的樣本集,這種方法都是收斂的。

也可以採用BP技術,也就是另一個世界裡,大名鼎鼎的“反向傳播神經網絡”。

當然,這個世界裡,“感知機”都還沒正式登場,說這些還有點早。

至於BP技術什麼時候問世,基本上是江寒自己說了算……

此外,還可以將數據帶到核空間,再進行分類。

在另一個世界裡,有很多著名的算法,例如支持向量機(SVM)、徑向基神經網絡(RBF NN)等等,都採用了所謂的“核方法”。

核方法的核心,是核函數。

工業生產中,常用的核函數有線形核、多項式核、高斯核等等。

所謂核空間,百度百科上說:“核型空間是一類局部凸空間。”

具體來說:如果對零元的任何均衡凸鄰域V,存在另一零元的均衡凸鄰域U?V,使得典型映射T:XV→XU是核映射,則局部凸空間X稱爲核型空間。

這裡,XU是商空間(X,PU(·))/{x-PU(x)=0},而XV是商空間(X,PV(·))/{x-PV(x)=0}的完備化空間,PU(·)及PV(·)是由U和V各自產生的閔可夫斯基泛函。

嗯,江寒剛開始看到這個的時候,還真有點懵逼。

所以,再加強一點數學素養,還是很有必要的說……

當然,就算不懂上面的數學表達,一樣可以理解核函數的功能。

核函數主要做的事情,就是將樣本映射到更高維的空間。

但是,這樣做雖然能使樣本變得可分,但卻會造成維數過高,使得計算量急遽增大。

這就是“高維NP難”問題。

所謂NP難(NP-hard),是指:非確定性多項式問題的大型實例,不能用精確算法求解,只能尋求有效的近似算法。

而解決的辦法,也有很多……

好吧,先回到一開始的問題:如何判斷數據是線性可分的?

最簡單的情況,比如數據向量是一維、二維或者三維的,只要把圖像畫出來,直觀上就能判斷出來。

但如果數據向量的維度變得很高,又該怎麼辦?

答案是檢查凸包(convex hull)是否相交。

所謂凸包,簡單的說,就是一個凸的閉合曲線(曲面),它剛好包住了所有的數據。

以二維的情況爲例,如果我們的數據訓練集有兩類:M+和M-。

當我們畫出兩個類的凸包,如果兩者不重疊,那麼兩者線性可分,反之則線性不可分。

靠畫出圖形,然後用眼睛來判斷是否線性可分,雖然比直接看數據更加容易了些……

但好像依然沒有解決高維數據的問題?

其實不是這樣的。

判斷兩個凸包是不是有重疊,可以通過判斷兩個凸包(M+和M-)的邊是否相交來實現,而無需把凸包畫出來。

要想高效地找到一組數據的凸包,在計算幾何中有很多現成的算法:

窮舉法、分治法、Jarvis步進法、Graham掃描法、Melkman算法……

江寒在這篇論文中選擇的算法,稱之爲快速凸包算法(quickhull)。

第二個問題,如何高效地判斷出,兩個凸包的邊緣是否相交?

也有許多可選的算法,江寒使用了所謂的掃描線算法(sweepline)。

Quickhull和sweepline的時間複雜度,都是O(nlogn),這是它們被選中的前提條件。

時間複雜度越低,實踐中就越有可行性。

但寫論文不能這麼簡單的直接扔出來結論,必須將各種算法的效率和優缺點,全都分析一下。

有必要的時候,還要逐一測試N遍,收集到足夠的數據,然後進行橫向比較,最後才能得出結論。

江寒理清了思路後,開始打草稿。

首先寫下標題,然後是摘要,接下來是正文……

(此處省略2300字。)

江寒正奮筆疾書,黃光明忽然溜溜達達地走了過來。

“江寒,都下課了,還在做題啊?”

黃大學霸說着,探頭探腦地瞅了一眼。

結果一看草稿紙上書寫的標題,頓時就有點傻眼。

“《如何高效判斷數據是否線性可分》……”

這什麼玩意?

高中課程裡有這種東西嗎?

再一看正文,就更加懷疑人生了。

沉默了半天,黃光明還是忍不住問了一句:“你這寫的什麼東西?”

“偶有所感,隨便寫寫。”江寒笑着回答了一句,然後繼續奮筆疾書。

黃光明研究了半天,最終還是放棄了,搖了搖頭,轉身就走。

他忽然發覺,自己這個傳統型學霸,和江寒這種怪物相比,好像已經不在一個頻道了……

江寒瞥了眼黃光明的背影,發現他似乎……有點落寞?

忍不住搖了搖頭。

好像不小心打擊到了別人了,但這次真的是誤傷……

又是兩節課帶課間過去,終於在第四節下課十來分鐘後,寫完了初稿。

將東西收拾好,就趕往食堂吃飯。

下午,江寒也沒浪費時間,寫了大半篇“感知機應用”方向的論文,然後在晚自習的時間裡,寫完了另外一半。

充實的一天就這樣過去。

下了晚自習,江寒先找宿管老李,把自己的手機拿了回來。

回到403寢,打開手機,好幾條短信跳了出來。

江寒翻看着短信。

最新的一條,赫然是來自銀行平臺的提醒:【您卡號621xxxxxxxxxxxx的銀行卡,存入資金8.4萬元。】

“嘖,還挺及時的。”江寒讚了一聲,放下了手機。

夏如虹按照約定,把專利授權費打過來了。

第一筆資金總共是10萬塊,到賬卻只有8萬4。

剩餘的部分,自然是爲國家做了貢獻,扣除了應繳納的稅款。

這錢來的正是時候。

江寒的手頭正好有點緊,而且還有許多比較急迫的預算。

在江寒的計劃裡,最近一兩個月裡,最重要的事情,就是數據實驗室。

因爲等他出完“多層感知機”的論文,再想搞機器學習方面的研究,就必須大量算力的支持了。

打造數據實驗室,硬件設備不能少。

有些不急需的東西,可以等手裡活錢多了,再慢慢地置辦,但最基本的硬件設施,越快到手越好。

江寒先做了張EXCEL表格,將所需的東西羅列了出來,然後在網上一頓搜尋,找準了採購目標,再按照重要程度,一樣樣下單。

等過幾天有空,就去夏如虹借給自己的車庫,看看情況。

然後抓緊時間,把場地收拾出來。

等硬件一到位,就立即把實驗室置辦起來……

第422章 更有效率的刷分第315章 故伎重施第75章 金少樓的警告第343章 差之毫釐,謬以千里第120章 《數字混淆加密(簡易版)》第354章 迷你3D打印機第414章 蚊子再小也是肉第162章 奇怪的U盤第141章 金裝四大才子第3章 一個大膽的想法第196章 背黑鍋我來第142章 哪捨得叫你疊被鋪牀?第318章 飛機點餐攻略第295章 全世界沒人教得了第259章 江寒的秘奧義第143章 別人笑我太瘋癲第225章 papa別鬧!第103章 風口第307章 沒有證據可不行第22章 名偵探婉瑩第91章 這麼忙嗎?第253章 不幸猜中了第352章 有了一個小助手第208章 有埋伏第339章 翻雲覆雨,點石成金第210章 爲了節目效果第404章 神經系統疾病的終極治療手段第109章 不擅長的事情第165章 看誰先慫第131章 夏雨菲的小秘密第98章 全能UP主第295章 全世界沒人教得了第279章 一舉成名天下知第46章 月考開始第302章 聳人聽聞,觸目驚心第245章 什麼事兒比NOIP還重要?第206章 整理論文第177章 口是心非的非第162章 奇怪的U盤第57章 非常巨大第315章 故伎重施第76章 還有什麼是他不會的?第199章 大功告成第371章 莫非換了個女朋友?第69章 論如何追女孩紙第157章 找個清靜的地方第307章 沒有證據可不行第66章 審覈過程第106章 查戶口第201章 組內學習競賽第405章 身手很好,飯來張口第422章 更有效率的刷分第142章 哪捨得叫你疊被鋪牀?第45章 火了第430章 超算落成,九段助陣第425章 街頭象棋第247章 對拍、Day1第三題第221章 超級大腦,人傑地靈第341章 決戰楓林火山第391章 一切交給時間第229章 從源頭上防仿製?第98章 全能UP主第382章 電動車和機械臂第374章 手工打造LED顯示器第109章 不擅長的事情第308章 敬可愛又無常的命運第398章 商用級手寫識別算法第410章 六度分割理論?第180章 想謙虛都沒地方謙虛第178章 “概率圖”上的天窗第12章 重生的使命第118章 《如何高效判斷數據是否線性可分》第96章 暫時保管?第114章 收音機,以及1:10?第337章 拐着彎地誇自己?第306章 就剩這麼幾個了第126章 八樓的直升飛機第373章 肉體永生,還是機械飛昇?第352章 有了一個小助手第403章 家產億萬,平平無奇第34章 遊戲發佈第106章 查戶口第295章 全世界沒人教得了第31章 《水果忍者》和《2048》第363章 終於對《我的世界》下手了……第216章 有些事,再多的錢也沒得談第118章 《如何高效判斷數據是否線性可分》第18章 就是普通同學第80章 碰碰船和真人CS第57章 非常巨大第187章 牀下的小畫冊第85章 吊橋效應第32章 借MacBook一用第22章 名偵探婉瑩第369章 點八個,贈十個……第85章 吊橋效應第156章 你高興的太早了第336章 女爲悅己者容第310章 唯一的破綻第239章 沒有對比就沒有傷害