第14章 突破!新輸入法神器

杜克進入一種入魔一樣的研究狀態,他現在的時間非常寶貴,完全沒有多少可以浪費的空間,所以在吃完後就迅速回到自己那個小小的家裡。坐在24小時不間斷下載的電腦面前,他瘋狂搜索下載各種語音片段資料,交給克里進行語音語義分析及基礎知識庫的建設。

自從搬到出租屋後杜克已經瘋狂在網上下載了數千各種環境和語境下的語音片段,從電視電臺新聞片段到影視劇對白、動物世界或是國家地理頻道的科教解說片段,以及各種偷拍、自拍、僞自拍生活現場片段,感謝酷溜土豆、youtube,還有BT和電驢,讓杜克知道原來世界還有如此豐富多彩聲音。

杜克收集的如此衆多聲音索材對於克里處理能力來說卻彷彿是滄海一粟,往往剛剛輸入進去,克里就運算解析出來該片段的語音語義特徵,從而爲語音識別的語音語義特徵庫增加一份新的標本元素,越是不同的語音片段越有價值。

這就像一個人生活過的地方越多,就越能聽出不同地方口音是一個道理,每個聲音都是有一些特殊特徵和普遍特徵構成的,現在的語音識別軟件對於標準發音的識別率其實已經很不錯了。

如IBM在很多年前就推出語音識別輸入系統ViaVoice,在安靜環境和標準發音情況下軟件識別率可以達到實用級別。

可惜實際運用環境不會那麼理想,而是就像杜克寢室中4個人一樣千差萬別,雖然大家說的都是中國話,但是四個來自不同地方的人的口音卻大相徑庭,剛剛住在一起的時候四個人溝通經常有些問題,但是大家很快就適應下來。

人腦強悍的學習能力絕對不是當今電腦所能夠比擬的。而現有的語音識別軟件卻沒有這麼強悍的學習適應能力,也就是說它沒有用來識別這種語音特徵差異的知識庫,當然就無法將一些未知類型的發音很好的識別出來。

不同口音的識別和環境噪音的排除是語音識別倆個難題,要解決這些問題需要大量的第一手語音資料片段來建立一個海量的語音特徵知識庫,或者是開發出像克里這般高度智能的超級電腦。

克里根據杜克下載的理論資料,結合各種語音片段分析,不斷對語音識別基礎算法進行了更新,並且生成不同的語音識別模擬器--這是主要考慮到地球現在主流電腦的運算水平比起克里來說實在太低級。

以模擬iphone4s的50%運算能力爲最低基準,克里模擬出不同性能情況下該語音識別算法的準確率和反應時間,原始版本從最初基準性能下5秒內能夠達到90%的識別準確率--當然這個成績已經遠超現在地球上所有語音識別軟件水準。

要知道這個90%準確率是用數千段不同語境的不同口音中英文語音信息進行模擬識別檢驗,也就是說基本上考慮了各種口音及噪音的過濾處理。

這個成績已經比現在只會聽英文的蘋果Siri要強多了,畢竟Siri現在能夠識別的也是比較標準的英文發音。不信你拿印度口音和新加坡口音的英語錄音片段試試看Siri能夠識別出多少來。

如果是在一臺模擬性能接近雙核2G以上主頻電腦上,這個指標的識別水平將會提升到2秒以內達到97%以上準確率,反應時間同識別準確率其實有些衝突,因爲要識別更加準確必須要原始版本的語音語料庫基礎資料來源更加豐富。

聲音採樣越廣泛識別準確率越高,而語音樣本庫越龐大,用於搜索匹配的時間就會越久導致反應時間的延長,因此語音樣本的抽樣壓縮和語音搜索匹配算法一直是克里優化的倆個重點。

克里一直在不停地模擬改進提取語音語義特徵值的算法,通過不斷壓縮冗餘值,在保持不失真的情況下持續不斷縮小語音樣本語料庫大小,另外一方面也不斷改進對語音語料庫智能搜索匹配算法。

優化算法杜克幫不了什麼忙,但是收集儘可能多的語音樣本杜克卻沒有問題,所以杜克的每一天都過着一種非常充實的生活,日復一日地搜索下載不同類型的語音樣本供克里分析提煉,同時不斷去學習理解克里所創造的這些全新的處理算法,要敲開麻省理工的大門。

杜克必須要有一篇體現自己能力的世界領先水準的語音識別基礎理論創新性論文,可是在克里的知識庫中並沒有現成的語音識別知識,這些對於克里來說太老舊了,老舊到比萊姆都沒有爲克里增加這些知識。

而克里現在做的就是在地球上現有語音識別理論和算法基礎上,利用他強悍到無邊的模擬能力,不斷地模擬各種不同的語音處理算法。

通過模擬來找到一種更加有效的--這種方法雖然有些笨拙,但是有了克里超強的運算能力,畢竟每秒鐘成千上萬種可能算法都可以模擬,使得這種笨拙的方法也有相當的效果,找出了好幾種可能的優化算法,將識別率和反應時間提升到了一個新的高度。

可是要將這些成果用地球人能夠理解的語言和理論寫出來,還要讓人能夠看懂,不管是對克里還是杜克來說都是一個新挑戰,因爲克里不是以01爲核心的機械二進制思維模式,而是生物多態思維模式。

儘管克里現在已經能夠瞬間同時模擬出地球上常見十多種不同性能PC機虛擬機--爲了讓克里能夠準確瞭解地球上電腦的運算能力,杜克買了四臺不同接口的主機和接近二十塊市面主流PC機CPU提供給克里分析和測試性能基準,然後克里根據這些配置的性能來進行虛擬對應的模擬器。

可是這些特殊的虛擬機由於不需要讓人理解,所以克里完全可以按照自己的運算方式來創造,因此性能雖然相當,但是實現模式卻大相徑庭,比起地球上RISC和CISC倆種不同架構的CPU來說,複雜程度都不是一個數量級的。

因此在克里完成了按照他自己模式實現的算法後,還要按照地球上01規則來重新實現,這個對於克里來說確實是一種巨大的挑戰了,更別說論文還要在此基礎上再次抽象,不光要有軟件實現算法,還要建立起以地球數學基礎能夠證明的數學模型。

因此克里幾乎二十四小時不間斷地不斷運轉着,最終模擬算法能夠在最低基準上面實現1秒內達到97%識別率,而在雙核2G主頻電腦上實現1秒內99%以上識別率之後,足足又用了倆個周的時間。

在杜克看完十幾本數學專著,下載研究了好幾個開源語音識別軟件的基礎上,克里才完成了語音識別新算法的論文和協助杜克開發完成一個在地球電腦上運行的語音識別軟件。而這個語音識別軟件的第一個應用就是包裝成爲一種語音輸入法。

海角論壇。完成語音識別軟件和論文寫作倆個任務,杜克現在是一身的輕鬆。

他註冊換了一個馬甲加入到一個對克里的戰爭劇情發展討論貼中,爲了測試新軟件,只見他對着電腦麥,儘量模仿各種不同的腔調口音說着話,這些話很快就被電腦識別變成文字去回覆論壇中各種文青對人物和劇情的分析。

杜克對劇情瞭若指掌,分析起來當然頭頭是道,往往是一大段一大段的精闢分析,很快就引起了粉絲們的關注,當然有了語音識別輸入,杜克的雖然回覆內容實在,可是每次回覆卻還是比論壇中任何人都要快速。

感覺就算比起專業速記人員也毫不遜色。

“嘿,哥們你用的是神馬輸入法,怎麼回覆那麼快,幾乎是秒回了?”一個文青終於忍受不了杜克這種飛一般的回覆速度的好奇,忍不住發問了。

什麼輸入法?杜克一愣,隨即反應過來,自己爲了測試剛剛開發出來的語音識別輸入法,一時間沒有注意控制速度,沒想到如此拉風的秒回竟然不知不覺就引發了關注。

“一種新型的語音輸入法。”杜克變幻着用一種類似老趙的鐵嶺聲音說道,立刻電腦屏幕上準確將他的語音轉換成文字,收錄到的老趙語音樣本不少,識別率自然完全沒有問題。

在剛纔的討論中,杜克已經用他能夠想出來的所有發音方式進行了模擬測試,識別準確率百分之百,雖然他現在只是將電視機聲音調小作爲背景噪音,離一個複雜噪音環境還有一些距離,但是由於杜克變幻着不同口音和語氣,能夠達到這種水平,幾乎可以看到,鍵盤輸入法的時代結束了,這款語音輸入法的推出將宣告一個新輸入時代的開始。

“嗨,哥們,你逗我玩兒吧,企鵝語音輸入法我用過,那有你這速度和準確率。”那個文青不相信的回覆道。

“呵呵,剛拿到的內部測試版本,哦,Sala輸入法,不出意外的話很快你就能夠從各大網站下載到預覽版了。”杜克想起蘋果的Siri,不禁隨意地杜撰了一個類似軟件名字回覆道。

“真的還是假的?哪家公司研發出來這麼牛的輸入法?”

“這是公司纔開發出來的最新作品。正在測試中,呵呵,不過真的好用。擺脫鍵盤的感覺還真是不錯啊”

“收費還是免費的?免費的話能不能將你的測試版本傳一個給我,

“大哥,跪求發一個到ooo@”

很快貼子討論就偏離了方向,開始有越來越多的人關注到這倆個人的對話,到最後都加入到求Sala輸入法的行業,一時間滿屏都充斥着求Sala語音輸入法的回覆。

再度創造一個轟動效應的杜克,完全沒有想到一個軟件實測居然會如此演變,由此可見這個語音輸入軟件的適用範圍實在太廣泛了。但是杜克這次沒有頭腦發熱就答應下來,他就算再缺乏情商,也知道這個時候把軟件免費發出去是絕對不合適的,可見隨着智商的激增,尤其是經歷了同倆位編輯的談判後,杜克的情商還是有了那麼一點點的進展跡象。

實戰試用非常成功,驗證語音識別新算法沒有什麼問題,杜克滿懷信心地將論文電子稿件投遞到了JACM--這可是計算機業界頂級刊物,能在這上面發表論文,可以無可置疑的證明自己強悍的科研能力,比一百個知名教授的推薦都要有效,再配合杜克無可挑剔的GRE成績,申請麻省理工博士可謂毫無壓力。

第710章 認知錯誤第607章 談判(下)第133章 風險第402章 不惜一戰第280章 軍中大佬第498章 貓和鼠遊戲(3)第16章 第一屆股東大會(上)第1章 楔子第732章 最後通牒第172章 基地建設(6)第25章 遊戲版權之爭(上)第547章 契機第408章 演習(一)第342章 決戰(2)第767章 終結者首戰第607章 談判(下)第626章 偷襲(7)第792章 以牙還牙第86章 未來產品的走向第350章 合作(3)第21章 傑克來訪第612章 磨刀霍霍第759章 新的問題第742章 勒索第654章 應者雲集第568章 大逆轉(中)第508章 貓和鼠遊戲(13)第565章 大潰敗(上)第43章 柔道黑帶的美眉傷不起第105章 突飛猛進第718章 亮劍第821章 聖誕攻勢第164章 挫折和對策第675章 慘案第190章 底線第591章 靈異事件(下)第472章 總裝來客第85章 極度誘惑的美女測試第299章 雲散第54章 競賽之序章第569章 大逆轉(下)第632章 大決戰(4)第549章 驚人發現第330章 海盜?海盜!第647章 第二戰場第203章 籌資第803章 慘敗第372章 要當爹了第624章 偷襲(5)第62章 香豔的專訪(下)第519章 終結者計劃第798章 背水列陣第17章 第一屆股東大會(下)第168章 基地建設(2)第526章 只爭朝夕第744章 峰迴路轉第289章 緋聞事件第703章 無處不在第514章 各有收穫第19章 撿到一個創意總監第344章 第一代蓮花堆第596章 金融巨鱷第330章 海盜?海盜!第58章 競賽之悲喜交加第617章 暗戰(4)第555章 暗影問世第640章 大決戰(12)第83章 腦波念力控制器第753章 扶植第647章 第二戰場第425章 新素材第135章 風投(一)第224章 炒作偶像第280章 軍中大佬第317章 逼供第681章 最後時刻第183章 計劃和閒話第312章 十號工程第17章 第一屆股東大會(下)第257章 誰上市?第102章 致命缺陷第750章 神兵天降(上)第371章 課題突破第743章 偵察第298章 求求你抱緊我第476章 巨龍入水第775章 血戰巴拉卡(5)第126章 別開生面的員工見面會(下)第588章 彈指萬里行第52章 波爾教授的打算第431章 出擊第10章 慶功宴第662章 失敗的第一次飛行第330章 海盜?海盜!第539章 爭論第417章 樹大招風第516章 引蛇出洞(中)第265章 智能電視團隊建設第453章 東方系第823章 對峙