百度云長文本語音合成服務(wù):提升新聞播報 AI 智能體的專業(yè)感
我們研發(fā)了各式各樣的工具,這些工具悄然無聲地影響著我們的生活,既帶來了喜悅,也帶來了遺憾。以之前為例,我們運用了智譜開源模型GLM-4-Voice進行語音生成,卻發(fā)現(xiàn)語音質(zhì)量存在瑕疵,長文本刪減成了難題。這促使我們不斷尋求改進,最終轉(zhuǎn)向了百度云的長文本語音合成服務(wù)。
獲取百度云服務(wù)的必要性
在現(xiàn)今社會,高質(zhì)量的語音合成顯得尤為關(guān)鍵。這種技術(shù)廣泛應(yīng)用于多個領(lǐng)域,新聞行業(yè)便是其中之一。過去,智譜模型存在缺陷,導(dǎo)致其在實際應(yīng)用中受到諸多限制。在眾多辦公場所,人們迫切需要高質(zhì)量的語音轉(zhuǎn)換服務(wù),尤其是對于新聞播報這類對語音準(zhǔn)確性和流暢性要求極高的領(lǐng)域。眾多從業(yè)者都曾因語音工具的不足而感到困擾。如今,百度云服務(wù)有望為解決這些問題提供有效途徑。
另一方面,用戶對工具的需求也在不斷提升。以日常使用語音功能的人群為例,他們普遍期待聽到自然流暢、仿佛真人發(fā)出的語音。哪怕是微小的瑕疵,都可能影響使用感受,這也驅(qū)使他們尋求更優(yōu)質(zhì)的服務(wù)。
獲取Token的流程與意義
def?fetch_access_token():
????url?=?"https://aip.baidubce.com/oauth/2.0/token"
????params?=?{
????????"grant_type":?"client_credentials",
????????"client_id":?API_KEY,
????????"client_secret":?SECRET_KEY
????}
????response?=?requests.post(url,?params=params)
????response.raise_for_status()??#?檢查請求錯誤
????return?response.json().get("access_token")
獲取Token至關(guān)重要,是使用百度云API的必備憑證。這一步驟非常嚴(yán)格。程序員必須精確編寫特定代碼。這些代碼會向百度云認(rèn)證服務(wù)器發(fā)送POST請求。在請求過程中,會攜帶必要參數(shù)以獲取Token。無論開發(fā)者身處何地,只要使用百度云語音合成功能,都必須完成這一步驟。
這個環(huán)節(jié)看似繁雜,實則影響深遠(yuǎn)。若缺少這個Token,便如同門外漢,無法觸及門內(nèi)的服務(wù)。眾多開發(fā)者實踐證明,一旦這一步出錯,后續(xù)工作便難以進行。
創(chuàng)建文本轉(zhuǎn)語音任務(wù)
成功獲取Token后,便進入創(chuàng)建文本轉(zhuǎn)語音任務(wù)的環(huán)節(jié)。這一階段需要編寫代碼來構(gòu)建請求URL和請求體。其中涉及許多關(guān)鍵參數(shù)。例如,文本內(nèi)容決定了語音轉(zhuǎn)化的來源;音頻格式會影響到最終語音文件的類型,比如MP3等;而音庫的選擇則關(guān)系到語音的風(fēng)格。
def?initiate_text_to_speech_task(text_list):
????access_token?=?fetch_access_token()
????url?=?f"https://aip.baidubce.com/rpc/2.0/tts/v1/create?access_token={access_token}"
????payload?=?{
????????"text":?text_list,
????????"format":?"mp3-16k",
????????"voice":?5118,
????????"lang":?"zh",
????????"speed":?5,
????????"pitch":?5,
????????"volume":?5,
????????"enable_subtitle":?0
????}
????headers?=?{
????????'Content-Type':?'application/json',
????????'Accept':?'application/json'
????}
????response?=?requests.post(url,?headers=headers,?json=payload)
????response.raise_for_status()
????return?response.json()
這一過程首先是將冰冷的文字變?yōu)橛新晝?nèi)容的關(guān)鍵轉(zhuǎn)換。新聞編輯者輸入新聞稿件后,期望通過這一任務(wù)生成適合播報的語音。同時,程序員在編寫這一環(huán)節(jié)的代碼時,必須依據(jù)實際需求,精確設(shè)置相關(guān)參數(shù)。
查詢?nèi)蝿?wù)狀態(tài)的重要性
任務(wù)創(chuàng)建后,必須及時查詢其狀態(tài)。這通常是通過向百度云的查詢接口發(fā)送POST請求,并附上任務(wù)ID來實現(xiàn)的。目的是為了知曉何時能夠獲取到合成的語音。這個過程就如同等待面包烤熟一般。
任務(wù)完成后,您將獲得合成語音文件的鏈接。然而,若在實際操作中未能及時查看任務(wù)狀態(tài),語音文件可能早已生成,而您卻渾然不覺,仍在等待。這種情況下,不僅浪費了資源,還耗費了寶貴時間。這種現(xiàn)象在眾多企業(yè)流程中,往往會對工作效率造成嚴(yán)重影響。
程序主函數(shù)的集成意義
def?query_task_status(task_id):
????access_token?=?fetch_access_token()
????url?=?f"https://aip.baidubce.com/rpc/2.0/tts/v1/query?access_token={access_token}"
????payload?=?{"task_ids":?[task_id]}
????headers?=?{
????????'Content-Type':?'application/json',
????????'Accept':?'application/json'
????}
????response?=?requests.post(url,?headers=headers,?json=payload)
????response.raise_for_status()
????return?response.json()
主函數(shù)負(fù)責(zé)整合前述各項功能。它首先創(chuàng)建任務(wù),然后持續(xù)查詢狀態(tài),直至任務(wù)完成。這一過程對于構(gòu)建新聞播報AI智能體的完整流程至關(guān)重要。以大型傳媒公司為例,開發(fā)者必須將這一流程串聯(lián)起來,才能實現(xiàn)新聞播報的自動化。
若這一環(huán)節(jié)處理不當(dāng),便會發(fā)生脫節(jié)。盡管前項任務(wù)已完成,卻無法有效整合,導(dǎo)致最終無法為用戶提供從新聞文字到語音播報的連貫體驗。
最終成果體現(xiàn)出的意義
完成了前面的所有步驟,新聞文本已被迅速轉(zhuǎn)換成了語音。這樣的轉(zhuǎn)換讓用戶享受到了便捷的聽新聞體驗。就像在公交車上,想要聽新聞,現(xiàn)在也能輕松做到。
def?main():
??????text_list?=?[
????????"歡迎收聽今日財經(jīng)快訊:",
????????"1 華為正式發(fā)布首個國產(chǎn)移動操作系統(tǒng):華為正式發(fā)布了首個國產(chǎn)移動操作系統(tǒng)HarmonyOS 5,這是鴻蒙系統(tǒng)第五個大版本,也是第一個實現(xiàn)完全自主的版本,沒有摻雜其他操作系統(tǒng),僅支持鴻蒙內(nèi)核和鴻蒙系統(tǒng)的應(yīng)用。HarmonyOS 5在設(shè)計和UI上有了很大的變化,特別是在系統(tǒng)的流暢度和各層級界面、各種不同App之間的切換動畫和動效,都有了更加細(xì)節(jié)和真實的考量。HarmonyOS 5通過算法,用“光·形·色·力·時空”模擬出了真實世界的物理規(guī)律和光影效果。",
????????"2 8點1氪|微信內(nèi)測“查刪單向好友”功能;肯德基被曝用轉(zhuǎn)基因大豆油;許家印香港豪宅6折急尋買家:微信正在進行一項新功能內(nèi)測,可以查看已刪除自己的聯(lián)系人/好友,并可以選擇性篩選與刪除。肯德基被曝使用轉(zhuǎn)基因大豆油,天津多家門店被立案調(diào)查。許家印兩座香港豪宅滯銷,繼續(xù)大幅降價求出售。",
????????"3 Claude 3.5深夜覺醒,學(xué)會模仿人類用電腦,編程干翻o1,Agent一夜變天:Anthropic AI發(fā)布了Claude 3.5 Haiku和Claude 3.5 Sonnet,全新升級版Claude 3.5 Sonnet一舉擊潰OpenAI o1,堪稱最強推理模型。Claude 3.5 Sonnet是首個在公測中提供此功能的模型,可以像人類一樣使用計算機,不僅可以查看屏幕、移動光標(biāo),還可以點擊按鈕、鍵入文本。",
????????"4 iPhone 17 系列最新爆料:史上最輕薄的蘋果手機來了:iPhone 17 系列可能會帶來自2017年發(fā)布iPhone X以來最大的設(shè)計更新。爆料稱蘋果將會在2025年發(fā)布iPhone 17、iPhone 17 Pro、iPhone 17 Pro Max三款常規(guī)機型。最受關(guān)注的機型非iPhone 17系列中“可能的”全新產(chǎn)品線iPhone 17 Air/Slim系列莫屬。iPhone 17 Air/Slim系列手機將搭載采用臺積電3nm工藝制造的A19芯片,配備一塊6.6英寸可變刷新率ProMotion顯示屏,最高支持120Hz刷新率。",
????????"5 當(dāng)霸王茶姬們卷到香港去,留給它們的好鋪子卻不多了:一大批內(nèi)地茶飲品牌正在爭相入港。目前,內(nèi)地茶飲品牌在香港門店數(shù)量最多的是喜茶,自2018年進入香港后,經(jīng)歷了閉店與重新擴張,喜茶目前在港開店6家。但從增速來說,2023年12月才入港的蜜雪冰城,如今開了5家門店,實屬最快。相較于內(nèi)地,這個速度并不值得稱道。在香港,內(nèi)地茶飲品牌的開店速度都十分克制。選址是內(nèi)地茶飲品牌在香港拓店時考慮的最核心要素。",
????????"6 「純血鴻蒙」,真的能跟安卓、蘋果三分天下?:華為HarmonyOS Next(原生鴻蒙)正式發(fā)布,命名為HarmonyOS 5,是鴻蒙操作系統(tǒng)第五個大版本,也是第一個實現(xiàn)完全自主的版本,沒有摻雜其他操作系統(tǒng),僅支持鴻蒙內(nèi)核和鴻蒙系統(tǒng)的應(yīng)用。HarmonyOS 5在設(shè)計和UI上有了很大的變化,特別是在系統(tǒng)的流暢度和各層級界面、各種不同App之間的切換動畫和動效,都有了更加細(xì)節(jié)和真實的考量。HarmonyOS 5通過算法,用“光·形·色·力·時空”模擬出了真實世界的物理規(guī)律和光影效果。",
????????"7 剛剛,深圳380億IPO敲鐘:怡寶母公司華潤飲料正式登陸港交所掛牌上市。此次IPO,發(fā)行價14.5港元/股,開盤高漲13%,市值380億港元。這是今年港股募資第二大IPO,引入瑞銀資產(chǎn)、香港中旅、中郵保險、橡樹資本、博裕資本等9家基石投資者。相比華潤飲料,怡寶純凈水更為人熟悉。上世紀(jì)八十年代起家于深圳蛇口,怡寶在90年代末才正式加入華潤集團大家庭,2001年開啟經(jīng)典小綠瓶包裝后,怡寶純凈水很快遍及大街小巷。",
????????"8 「禁欲系」消費,騙哭了多少新中產(chǎn):長期主義消費雖然范圍廣闊,卻有共同的宗旨:主打一個人到中年,不吃“便宜”的苦。這一下子就走進了中產(chǎn)的精神世界。畢竟《30歲的長期主義,錢別亂花,要買就買最好的》。既然是最好的,那貴也是在情理之中。每個長期主義爆款標(biāo)題下配的照片,都是清一色的輕奢/高奢經(jīng)典款。單價上千的中產(chǎn)三寶lulu、拉夫、始祖鳥,算不上長期主義的優(yōu)等生,最多只是入門級。",
????????"財經(jīng)快訊播報完畢,感謝您的收聽!"
????]
????task_response?=?initiate_text_to_speech_task(text_list)
????task_id?=?task_response.get('task_id')
????if?not?task_id:
????????print("Failed?to?create?task.")
????????return
????print(f"Task?created?successfully?with?ID:?{task_id}")
????while?True:
????????task_status_response?=?query_task_status(task_id)
????????tasks_info?=?task_status_response.get('tasks_info',?[])
????????if?tasks_info:
????????????task_info?=?tasks_info[0]
????????????task_status?=?task_info.get('task_status')
????????????if?task_status?==?"Success":
????????????????print("Task?completed?successfully.")
????????????????task_result?=?task_info.get('task_result',?{})
????????????????speech_url?=?task_result.get('speech_url')
????????????????print(f"Speech?URL:?{speech_url}")
????????????????break
????????????elif?task_status?==?"Running":
????????????????print("Task?is?running.?Waiting...")
????????time.sleep(5)
if?__name__?==?'__main__':
????main()
這也說明,自從我們研發(fā)出百度云語音合成工具后,它對我們的新聞信息獲取方式產(chǎn)生了反作用。由此引發(fā)疑問,未來的工具又將如何塑造我們的生活?期待大家的點贊、轉(zhuǎn)發(fā),并在評論區(qū)熱烈交流。
作者:小藍(lán)
鏈接:http://www.beijingshangmencuiru.cn/content/4636.html
本站部分內(nèi)容和圖片來源網(wǎng)絡(luò),不代表本站觀點,如有侵權(quán),可聯(lián)系我方刪除。