「不會做才更要做」解密蔡明介督軍 聯發科出手贏過ChatGPT3.5
聯發科技推出生成式AI服務平臺MediaTek DaVinci與最新繁中大模型MR BreeXe,由董事長蔡明介親自督軍。(圖/記者黃耀徵、周志龍攝)
「不會做,才更要做!」臺灣晶片一哥聯發科技4月9日發表繁體中文語言模型MR BreeXe,以450億參數超越中文版ChatGPT3.5,奪下世界最強的繁體中文大語言模型(LLM)。儘管外界看熱鬧,也有酸民說贏了ChatGPT3.5沒什麼好驕傲,但臺灣科技圈人士深知,聯發科努力「緩解了一場迫切危機!」
近年全球爭相砸錢啓動的AI及LLM軍備競賽中,以歐美思維爲主流,英語稱霸,中文則以中國大陸簡體中文的語意邏輯掛帥,繁體中文相對弱勢,直到聯發科的MR BreeXe出現,緩解了被「邊緣化」的危機。
CTWANT記者採訪多位關鍵人士,得知了這場艱辛的技術研發過程,其實是一場文化保衛戰,連輝達聞訊後也上門,將去年底新推的AI超級電腦Taipei -1,交與聯發科訓練模型。
業內人士表示,聯發科在1997年從聯華電子多媒體部門分出來後,「拿到的牌都是最差的那一種」,要人沒人、要錢沒錢,主攻的產業都是世界上最競爭最難的,然而蔡明介一路走來的經營理念,就是有一個頂級的公司,才能把人才留在臺灣。
聯發科從光碟機晶片組開始,一路做到全球行動通訊晶片第二大廠,蔡明介引領技術創新之際,也觀察到AI科技將扭轉局勢,2019年他親自拍板、督軍,成立聯發創新基地,負責AI的前瞻研究,「比很多業者都早發現AI的重要性,將會形成『革命性的轉變,就像一種新的電力。』」聯發科技協理葉家順表示。
輝達去年底推出最新的AI超級電腦Taipei-1,讓聯發科第一個做訓練。(圖/翻攝自GoogleMap)
「AI最重要的基礎就是大語言模型,聯發科是以技術力爲主的公司,要做、就做對世界有影響的技術。」業內人士表示,聯發創新基地最初研究的是自然語言處理(NLP),是一種人工智慧的分支,可讓電腦理解、產生及處理人工語言,「最一開始的AI研究真是萬事起頭難,常改到死。」
2022年6月蔡明介下令基地放棄舊研究,改成全力押寶生成式人工智能GenAI,並啓動首個開源繁中大語言模型,跟一級主管這樣說,「沒有人做,所以我們要做!」
聯發科員工跟CTWANT記者說,當時董事長下軍令,但大家都面面相覷,OpenAI當時還默默無名,ChatGPT更是在2022年11月30日才發佈,等於沒有任何前例可循,更何況是要做臺灣爲主的繁體中文系統,幾乎是從零開始。
「聽到這個消息,我們的合作伙伴都很關切,頻頻問我們,怎麼做、你會嗎?當然不會呀!」聯發科員工表示,因爲大家都知道做大語言模型的難度大、門檻高,一般單位是做不來的,聯發科在研究過程中也「踩了不少坑、撞得頭破血流」,但在其他陣營開發速度陸續放緩後,「這件事反而成了『社會對我們的期望』,得到很多夥伴的協助。」
「最難的就是一開始,找不到適合的人才」聯發創新基地負責人許大山是加州柏克萊大學電機博士,曾任臺大副教授,被學生廣爲流傳的「年年書卷獎的臺大電機學霸」。他跟CTWANT記者說,當時聯發科在AI頂級科學家圈內是沒有名氣的,花了很大力氣才能招募到人才,有了成果、上了幾篇國際級的論文,學者們認識我們,後續才比較順利。目前聯發創新基地在臺大、劍橋、倫敦都有據點,「成員就像是個小的聯合國。」業內人士說。
聯發創新基地負責人許大山。(圖/記者黃耀徵攝)
聯發科「MR BreeXe」是以法國AI業者推出的Mixtral 8x7B開源模型爲基礎去開發,繼承Mixtral多專家模型特有的節省運算資源、提升速度優勢,再加上聯發創新基地的訓練,在繁體中文測試項目(TMMLU+、MT Bench TW)超越GPT-3.5,並優化臺灣常見之地端應用,提升產業界檢索增強生成(RAG)的體驗,還能一口氣處理4萬字的長篇資料,而Mixtral只能四千字。
AI龍頭輝達得知聯發科在做繁體中文大語言模型,特別拿出他們去年底才推出最新的AI超級電腦Taipei -1,讓聯發科第一個跑數據、做訓練。截至4月初MR BreeXe正式發表,450億參數,比OpenAI兩年前發表的中文版ChatGPT3.5模型參數規模270億,遠超出一大截。
「其實聯發科以繁體中文切入做大語言模型,是『緩解了一個非常迫切的危機』」成功大學資工系教授黃敬羣跟CTWANT記者解釋,以網路搜索來說,使用者14億人、源自中國的簡體資料在世界上的點擊量絕對高過臺灣的,像是Google臺灣就花了百人團隊去「平衡」,才讓臺灣人看到的網頁搜尋符合需求,但到了AI時代,這些人工干預就失靈了。
更多 CTWANT 報導