“大家好,我是人工智能主持人,這是我來新華社的第一天”,這段自我介紹,來自于正在烏鎮(zhèn)召開的互聯(lián)網(wǎng)大會。搜狗公司與新華社合作開發(fā)了全球第一個全仿真智能合成主持人,其嘴唇動作和面部表情都是基于新華社的兩位真人主播。
據(jù)報道,AI合成主播,突破了以往語音圖像合成領(lǐng)域中,只能單純創(chuàng)造合成形象,并配合語音輸出唇部效果的約束,極大地提高了觀眾信息獲取的真實度。同時,利用“搜狗分身”技術(shù),“AI合成主播”還能實時高效地輸出音視頻合成效果。在“搜狗分身”技術(shù)的支持下,使用者通過文字鍵入、語音輸入、機(jī)器翻譯等多種方式輸入文本后,將獲得實時的播報視頻。這種操作方式將極大減少新聞媒體在后期制作的各項成本,讓新聞視頻的制作效率有了極大的提高。
英國廣播公司(BBC)就此與計算機(jī)科學(xué)、人工智能與機(jī)器人領(lǐng)域的專家進(jìn)行了交流。
邁克爾伍爾德里奇(Michael Wooldridge)是牛津大學(xué)(University of Oxford)計算機(jī)科學(xué)教授,他的研究領(lǐng)域包括人工智能和多智能體系統(tǒng)。伍爾德里奇在接受BBC采訪時表示,這位主持人努力讓自己看起來很自然,但是怎么看都會覺得有些怪異,這可能是因為產(chǎn)生了恐怖谷效應(yīng):當(dāng)機(jī)器人與人類相似程度超過一定程度的時候,人類對他們的反應(yīng)便會突然變得極其反感,即哪怕機(jī)器人與人類有一點點的差別都會顯得非常顯眼刺目。
邁克爾伍爾德里奇將新華社的主持人描述為,“細(xì)微的不真實”,他說持續(xù)看上幾分鐘都是很困難的,主持人的發(fā)音極為平緩,同一韻律,缺乏節(jié)奏感。他還指出,人們通常愿意相信真人主播,因為主播在長期的新聞播報中帶給人情感上的信任個感。如果只是看一段由電腦生成的虛擬視頻,就失去了關(guān)注與主播的聯(lián)系。
謝菲爾德大學(xué)(University of Sheffield)人工智能和機(jī)器人技術(shù)榮譽教授諾爾·夏基認(rèn)為這是一個有益的嘗試。他說:“隨著時間的推移我們能看到技術(shù)的改善。”