語音技術應用的現(xiàn)狀和未來
語音技術應用的現(xiàn)狀和未來
從目前語音技術的研究現(xiàn)狀來講,技術已經(jīng)有了很大發(fā)展。語音識別和語音合成技術是實現(xiàn)人機語音通信及建立一個有聽和講能力的口語系統(tǒng)所必需的兩項關鍵技術。使電腦具有類似于人一樣的說話和聽懂人說話的能力。
語音識別技術主要包含幾個方面:語音控制、電子發(fā)聲、連續(xù)語音識別、非連續(xù)語音識別和語音學習。目前主要是在支持中英文,實現(xiàn)中英文混合識別問題上,存在一些障礙。同時在識別大量詞匯和個別發(fā)音方面還很難做到準確。作為語音識別技術新方向的語音學習,它則要求人模仿標準發(fā)音,其面臨的困難是如何衡量人模仿的好壞。
和語音識別相比,語音合成技術相對說來要成熟一些,是該領域中近期最有希望產(chǎn)生突破并形成產(chǎn)業(yè)化的一項技術。語音合成技術是計算機開口說話的關鍵,現(xiàn)階段語音合成的最大進展是已經(jīng)能夠實時地將任意文本轉換成連續(xù)可懂的自然語句輸出,相應技術通常稱為文語合成或文語轉換(TTS)。TTS使得數(shù)據(jù)通信和語音通信在終端一級實現(xiàn)交融,人們將有望在獲取Internet信息時,使短消息服務、電子郵件等多數(shù)以文本方式提供的信息也用語音的方式輸出。語音合成的主要功能是:根據(jù)韻律建模的結果,從原始語音庫中取出相應的語音基元,利用特定的語音合成技術對語音基元進行韻律特性的調整和修改,最終合成出符合要求的語音。
語音合成技術的應用范圍非常的廣,如電話查詢、話費催繳、呼叫中心、證券股票查詢、教育系統(tǒng)資料查詢等各類都有應用,在面對教育市場就主要是語音教學。
目前的語音室功能都是基于語音教學功能上,傳統(tǒng)的教與學還是占主導,教育部曾委托高等教育出版社、清華大學出版社、外語教學與研究出版社及上海外語教育出版社研制開發(fā)了四個版本的教學系統(tǒng),并且遠遠不止這些研究機構,包括中科院也同樣在研制一些有關語音方面的技術和產(chǎn)品,這為語音合成方面的發(fā)展和成熟做出了一定的推動作用。在課堂上學生通過語音平臺聽說練習,將學生的學習過程評價與終結考試相結合,對學生學習評測與對教師教學評估相協(xié)調,多層面、多角度、多環(huán)節(jié)地測試學生的英語實用能力。
在基礎教育領域,目前語音方面的產(chǎn)品并不是很多。但基礎教育的市場是巨大的,而且是很有前景的。劉院長希望能夠通過自己的努力和合作,開發(fā)出適合基礎教育的語音產(chǎn)品。
語音庫的建設的關鍵所在
現(xiàn)在語音識別技術存在的一些瓶頸主要在于:方言或口音會降低語音識別率、背景噪音、口語的問題:它既涉及到自然語言理解,又與聲學有關,口語的語法不規(guī)范和語序不正常的特點會給語義的分析和理解帶來困難,有些很不自然的合成效果往往是因為沒有能正確的使用合成與識別系統(tǒng)而導致的,并不是說是合成技術的不成熟,而是語音庫的完善度存在一定的差距。
在教育部所提出的學生考核中有這樣的一個方面,考務人員要對學生口語成績作出評估,但就目前來說是比較困難的,2003年我國高校在校生就已經(jīng)達到了1900萬,而從事大學英語教學的教師僅5萬人左右,如此大量的在校生如果用傳統(tǒng)的一對一教授方法是遠遠無法完成教學任務的,那么這些工作大部分都需要求助于計算機軟硬件的實現(xiàn),而實現(xiàn)這種可能就需要很完善的語音庫。
劉院長指出,我們國家目前的語音庫建設相較國際水平還是有些差距,合成出來音質達不到高要求,對語音識別還沒有特別突出的成果,主要還是資源的缺乏。在現(xiàn)有的語音庫里大部分是女聲,男聲只占有很少的一部分,其他年齡階段的數(shù)據(jù)就更加的少,這對我們進行情景對話,進行語音控制,進行模擬現(xiàn)實,進行時實語音評估等都存在一定的困難。誠然有許多的科研機構都在涉及語音識別技術這方面的研究,但對于語音庫的建設就有一定的困難性,這是一項需要大投入時間、人才、資金的項目,國內目前只有少數(shù)幾家走在前端的企業(yè)在做這一市場,正致力于解決困擾語音識別領域的某些技術缺陷,突破大量詞匯、連續(xù)語音、非特定人的三大障礙。劉院長說,國際上大的IT企業(yè)都非常看好這塊語音的尖端市場,我覺得語音識別技術是以后IT界未來十年中具有強勁潛力的發(fā)展方向。
語音技術的未來
未來的語音技術將在智能化等方面有較大發(fā)展。在未來我們會生活在這樣的世界里:當我們深夜回到家中,為床上熟睡的孩子蓋好被角,并將寵物貓咪帶出房間后,我們將大聲向機器發(fā)出指令,說出我們想做的事情由語音設備完成執(zhí)行,這并不是科幻,而是語音技術發(fā)展的結果。
















