2023年10月24日至25日,北京成功舉辦了第九屆RTE2023實時互聯(lián)網(wǎng)大會,這次盛會邀請到了喜馬拉雅的首席科學家盧恒和喜馬拉雅喜播教育副總經(jīng)理江敏出席。兩位代表在大會的“音頻專場”和“在線教育”專場論壇中分別探討AI在音頻行業(yè)和在線教育領(lǐng)域的未來發(fā)展前景。
RTE2023大會聚集了來自音視頻、互聯(lián)網(wǎng)技術(shù)、在線教育等多個領(lǐng)域的專家和技術(shù)人才,共設(shè)了20余場論壇和活動,圍繞音頻AI算法、前沿音頻技術(shù)應(yīng)用等熱門話題展開深入討論。
喜馬拉雅首席科學家盧恒對AIGC技術(shù)的發(fā)展充滿信心。他認為這一技術(shù)標志著音頻產(chǎn)業(yè)正邁入全新的內(nèi)容創(chuàng)作時代。然而,他強調(diào)AIGC并非要完全取代人類創(chuàng)作者,而是要成為創(chuàng)作者和企業(yè)的有力助手。盧恒詳細介紹了喜馬拉雅珠峰實驗室在AIGC領(lǐng)域的多維度應(yīng)用,包括多角色小說音頻AIGC技術(shù)和多模態(tài)情感識別與情感內(nèi)容生成。
據(jù)盧恒透露,喜馬拉雅的AIGC技術(shù)在音色轉(zhuǎn)換和有聲書主播領(lǐng)域已經(jīng)取得了令人矚目的進展,展現(xiàn)出巨大的潛力。盧恒指出,以音頻創(chuàng)作技術(shù)中的“多角色小說音頻AIGC技術(shù)”為例,這一技術(shù)能夠根據(jù)創(chuàng)作者提供的題材,自動進行角色識別、音色分配,并進行多種情感風格的語音合成、情感轉(zhuǎn)化,最后自動添加適當?shù)暮笃谛Ч取_@一應(yīng)用使得通過AIGC技術(shù)進行內(nèi)容創(chuàng)作不僅顯著提升了創(chuàng)作效率,還拓寬了創(chuàng)作的方向和內(nèi)容,大幅降低了音頻創(chuàng)作門檻,同時也擴大了內(nèi)容創(chuàng)作者的規(guī)模和用戶群體。
而近期,由喜馬拉雅和?北?業(yè)?學合作研發(fā)的語??成式?模型技術(shù),已經(jīng)能夠結(jié)合預(yù)訓練大模型及大語言模型,分別提取離散的Speech token及連續(xù)的Speech Vector,該技術(shù)能夠?qū)崿F(xiàn)style和音色的獨立控制以及transfer,同時能夠?qū)崿F(xiàn)5秒鐘音色定制,并且該框架還能應(yīng)用于VC、S2ST等不同場景。
在情感表達方面,盧恒領(lǐng)導的珠峰實驗室參考心理學對情感的定義和分類,進行了廣泛的研究,從而成功建立了“喜怒悲懼驚厭警贊無”等9種情感分類,以更精細地捕捉文本中的復雜情感。此外,在多模態(tài)情感識別與情感內(nèi)容生成領(lǐng)域,喜馬拉雅已經(jīng)成功開發(fā)了新一代的自動化AudioPS技術(shù),通過美化語音信號的情感、韻律和風格,將音頻作品的質(zhì)量提升至優(yōu)秀大主播的水準,使音頻內(nèi)容更貼近當下的情境。
在教育領(lǐng)域,喜播教育的副總經(jīng)理江敏分享了如何借助AI技術(shù)開創(chuàng)新教育模式的經(jīng)驗。她強調(diào),喜播教育致力于為音頻領(lǐng)域的人才提供全鏈條的系統(tǒng)培訓和就業(yè)指導服務(wù)。江敏介紹了喜播教育的多款A(yù)I助學工具,如AI練功房和AI角色音測試,這些工具提高了學員的訓練和自我評估效率。
盧恒和江敏一致認為,AIGC技術(shù)將持續(xù)影響音頻產(chǎn)業(yè)和在線教育領(lǐng)域的未來發(fā)展。他們表示,喜馬拉雅將繼續(xù)探索AIGC技術(shù)的應(yīng)用,提供更多優(yōu)質(zhì)、多元、智能和便捷的產(chǎn)品和服務(wù),以滿足不斷升級的用戶需求,助力音頻產(chǎn)業(yè)和在線教育行業(yè)不斷向前發(fā)展,幫助更多人實現(xiàn)美好人生。
此外,喜播教育也成立了專項研究小組,早在2018年就上線了一站式學習及教務(wù)管理系統(tǒng),提前關(guān)注5G、AIGC等信息技術(shù)的推動下涌現(xiàn)的智能教育新應(yīng)用和新職業(yè)。
為此,喜播教育先后上線了多款A(yù)I 教學及評測產(chǎn)品,并搭建AI練習場景,讓學員能夠通過系統(tǒng)的學習和科學有效的訓練,掌握有聲書制作及運營所需要的演播、后期制作、導演、運營等綜合能力,進而能夠通過這些能力去實現(xiàn)兼職就業(yè),甚至專門從事這一行業(yè),變成一名全職的有聲演播者。
除了有聲書主播,喜播教育還為學員提供多元化的賦能培訓機會,如音頻剪輯后期培訓和娛樂主播培訓。喜播教育通過自建MCN的方式挖掘和扶持有潛力的娛樂主播人才,幫助更多人實現(xiàn)多元化的職業(yè)發(fā)展和選擇。
江敏同樣表示,AIGC對教育行業(yè)的“滲透”是不可逆的,是大勢所趨。她鼓勵積極擁抱這一趨勢,并利用AIGC為學員和用戶謀福利,創(chuàng)造機會。
作為AIGC技術(shù)的受益者和引領(lǐng)者,喜馬拉雅不斷延伸和挖掘這一技術(shù)在用戶需求和體驗等層面的價值和作用。在AIGC技術(shù)的引領(lǐng)下,我們可以期待音頻領(lǐng)域的無限可能性,以及音頻教育的更多創(chuàng)新,去惠及音頻愛好者和創(chuàng)作者。(主辦方供圖)