|
一鍵注冊,加入手機(jī)圈
您需要 登錄 才可以下載或查看,沒有帳號?立即注冊 
x
2023年1月6日,百度舉辦Create大會(huì)-技術(shù)開放日活動(dòng),三位百度核心技術(shù)負(fù)責(zé)人到場,輪番講解百度最新的技術(shù)進(jìn)展,密集展現(xiàn)百度如何踐行“用科技讓復(fù)雜的世界更簡單”的愿景。
活動(dòng)期間,百度不止展示了如何用“手機(jī)全雙工語音交互”改善使用導(dǎo)航應(yīng)用的體驗(yàn),還詳細(xì)介紹了如何用“上帝視角”提升汽車的自動(dòng)駕駛能力,以及如何用百度自研的深度學(xué)習(xí)平臺(tái)飛槳加速科學(xué)研究。每一項(xiàng)研究都切中痛點(diǎn),每一項(xiàng)都有全球業(yè)內(nèi)唯一或領(lǐng)先的突破,展現(xiàn)著百度的技術(shù)實(shí)力。
百度在技術(shù)研發(fā)上的累計(jì)投入已超過1000億元,開發(fā)了大量業(yè)界領(lǐng)先的技術(shù)。從改進(jìn)日常生活體驗(yàn)到推動(dòng)前沿科技產(chǎn)業(yè)落地,再到加速基礎(chǔ)科學(xué)研究,百度的黑科技已經(jīng)滲透到社會(huì)的各個(gè)方面。
這三項(xiàng)只是百度前沿技術(shù)中的一部分。百度將在1月10日舉辦新一屆百度CreateAI開發(fā)者大會(huì),屆時(shí)會(huì)有更多百度技術(shù)大牛展示百度黑科技,進(jìn)一步展現(xiàn)技術(shù)創(chuàng)新的力量如何推動(dòng)增長。
實(shí)力遙遙領(lǐng)先的“手機(jī)全雙工語音交互”
想象一下,你正開車前往一個(gè)陌生的城市旅行,車?yán)镩_著音樂、同行的朋友們聊天,車外隱約傳來一些交通噪音,你需要用手機(jī)實(shí)時(shí)播放的導(dǎo)航語音認(rèn)路。
經(jīng)過臨時(shí)討論,朋友們決定要修改目的地去一個(gè)餐廳吃飯。為了安全起見,你需要把車停在路邊,重新設(shè)置目的地,讓地圖軟件重新設(shè)置導(dǎo)航路線。
這是因?yàn)槭謾C(jī)里軟件語音播報(bào)導(dǎo)航信息時(shí),通常不可能識別出你說了什么。背后的原理也不難理解,如果手機(jī)App在說話的時(shí)候,又在聽,它可能會(huì)識別自己說的話,非常容易造成誤判,尤其是導(dǎo)航應(yīng)用,直接關(guān)系到交通安全。
百度語音首席架構(gòu)師賈磊說,在世界范圍內(nèi),很長時(shí)間都沒有一個(gè)方案能普適的支持在手機(jī)上實(shí)現(xiàn)全雙工的語音交互——在手機(jī)播放導(dǎo)航提示的同時(shí),也能夠聽清我們的指令,甚至像真人對話一樣可以被我們隨時(shí)打斷,并對新的語音指令給予反饋。
困難有不少。想要實(shí)現(xiàn)全雙工語音交互,必須先做回聲消除,避免手機(jī)終端識別自己播放的聲音。賈磊說,在前裝軟件的音箱、車載系統(tǒng)上比較容易實(shí)現(xiàn),可以通過硬件適配算法,提前保證回聲消除的效果。
而手機(jī)App屬于純軟件后裝方案,需要讓軟件算法適配不同型號的終端硬件。通常,手機(jī)上喇叭距離麥克風(fēng)的距離比較近,同時(shí)手機(jī)終端款式多,硬件參差不齊。這些因素疊加在一起,會(huì)導(dǎo)致聲音信號的回聲消除會(huì)出現(xiàn)各種各樣的問題。再加上手機(jī)硬件的迭代更新非常快速,回聲消除效果就更加難以保證了。
這個(gè)難題已經(jīng)被百度解決。百度的技術(shù)團(tuán)隊(duì)融合傳統(tǒng)信號處理和深度學(xué)習(xí)模型各自的優(yōu)點(diǎn),基于語音識別目標(biāo),端到端地進(jìn)行回聲消除和信號增強(qiáng),解決了手機(jī)場景下的回聲消除問題,即使手機(jī)音量開到最大,回聲消除量也能達(dá)到40分貝,使得手機(jī)APP的語音識別功能能夠正常工作。
這是世界范圍內(nèi)、在全行業(yè),第一個(gè)能在手機(jī)上實(shí)現(xiàn)純軟件方案回聲消除的技術(shù)。
雖然手機(jī)的便攜性導(dǎo)致語音交互的使用場景非常復(fù)雜,在交互中常常面臨音樂、閑聊、環(huán)境噪聲、內(nèi)噪殘余等與交互內(nèi)容無關(guān)的其他信息干擾,語音識別難度增大。但百度研發(fā)出的基于SMLTA2的多場景統(tǒng)一預(yù)訓(xùn)練模型,一個(gè)模型解決噪聲、用戶口音和回聲消除殘余吸收等難題,在各場景下識別率相對提升超過20%,這在業(yè)界同類技術(shù)中,準(zhǔn)確率是最高的,可以說實(shí)力遙遙領(lǐng)先。
配合語音語義一體化的置信技術(shù),百度的技術(shù)方案可以降低錯(cuò)誤響應(yīng),并且支持交互過程中的引導(dǎo)和澄清,讓人機(jī)交互更智能順暢,更逼近人與人直接交互的體驗(yàn)。
目前,百度已經(jīng)做到在手機(jī)端實(shí)現(xiàn)自然流暢的全雙工語音交互,下一步將用到更多產(chǎn)品中。
更強(qiáng)悍的“上帝視角”,幫智能汽車解鎖“千里眼”
自動(dòng)駕駛系統(tǒng)可以取代人類司機(jī),讓出行更簡單,成為許多科技公司爭相投入的方向。想要讓汽車自動(dòng)駕駛,關(guān)鍵在于讓系統(tǒng)全面而準(zhǔn)確地感知、識別周圍環(huán)境。
人類駕駛員主要依靠視覺觀察道路和周邊情況,汽車靠激光雷達(dá)、毫米波雷達(dá)和高分辨率攝像頭等傳感器,它們決定了自動(dòng)駕駛系統(tǒng)能獲得什么環(huán)境、路況信息。
在自動(dòng)駕駛領(lǐng)域,傳統(tǒng)的圖像空間感知方法是將汽車上的雷達(dá)、攝像頭等不同傳感器采集來的數(shù)據(jù)分別進(jìn)行分析運(yùn)算,把各項(xiàng)分析結(jié)果融合到統(tǒng)一的空間坐標(biāo)系中,去規(guī)劃車輛的行駛軌跡。這個(gè)過程中,每個(gè)獨(dú)立傳感器收集到的數(shù)據(jù)往往受到特定視角的局限,經(jīng)過各自的分析運(yùn)算后,融合階段會(huì)導(dǎo)致誤差疊加,無法拼湊出道路實(shí)際情況的準(zhǔn)確全貌,給車輛的決策規(guī)劃帶來困難。
近些年來,行業(yè)中提出了BEV(Bird's Eye View,視覺為中心的俯視圖)自動(dòng)駕駛感知方案。不同于傳統(tǒng)的方式,BEV自動(dòng)駕駛感知就好比是一個(gè)從高處統(tǒng)觀全局的“上帝視角”,車上多個(gè)傳感器采集的數(shù)據(jù),會(huì)輸入到一個(gè)統(tǒng)一模型進(jìn)行整體分析推理生成鳥瞰圖,能有效地避免誤差疊加;這種方案還能夠做到時(shí)序融合,不僅是收集一個(gè)時(shí)刻的數(shù)據(jù),分析一個(gè)時(shí)刻的數(shù)據(jù),而是支持把過去一個(gè)時(shí)間片段中的數(shù)據(jù)都融合進(jìn)模型做環(huán)境感知建模,時(shí)序信息的引入讓感知到的結(jié)果更穩(wěn)定,使得車輛對于道路情況的判斷更加準(zhǔn)確、讓自動(dòng)駕駛更安全。
百度作為全球自動(dòng)駕駛技術(shù)第一梯隊(duì)的玩家,并沒有止步于BEV自動(dòng)駕駛感知方案,還首次在業(yè)內(nèi)提出了車路一體的解決方案UniBEV,集成了車端多相機(jī)、多傳感器的在線建圖、動(dòng)態(tài)障礙物感知,以及路側(cè)視角下的多路口多傳感器融合等任務(wù),是業(yè)內(nèi)首個(gè)車路一體的端到端感知解決方案。
基于統(tǒng)一的BEV空間,UniBEV 車路一體大模型更容易實(shí)現(xiàn)多模態(tài)、多視角、多時(shí)間上的時(shí)空特征融合。百度借助大數(shù)據(jù)+大模型+小型化技術(shù)閉環(huán),在車端路側(cè)的動(dòng)靜態(tài)感知任務(wù)上都取得了領(lǐng)先的成績。
硬核飛槳,加速科學(xué)研究
作為一種通用技術(shù),人工智能不只有猜你喜歡、讓汽車自動(dòng)駕駛的能力,還能幫助許多領(lǐng)域的科學(xué)家們加速科學(xué)研究的進(jìn)程,這就是人工智能科學(xué)計(jì)算(AI for Science)。
現(xiàn)在已經(jīng)有許多科學(xué)家團(tuán)隊(duì)正在用AI幫助解決科學(xué)難題。比如在氣象領(lǐng)域,AI實(shí)現(xiàn)更快更精準(zhǔn)的數(shù)值天氣預(yù)報(bào),包括預(yù)測強(qiáng)對流天氣的短時(shí)臨近降水情況和揭示大尺度的臺(tái)風(fēng)形成和演變規(guī)律。在生命科學(xué)領(lǐng)域,傳統(tǒng)的科研方法面臨生物類型實(shí)驗(yàn)數(shù)據(jù)少、計(jì)算任務(wù)復(fù)雜、學(xué)科交叉多等挑戰(zhàn),而隨著AI應(yīng)用探索的持續(xù)推進(jìn),AI已逐漸在藥物篩選、藥物設(shè)計(jì)、靶點(diǎn)研究、合成生物學(xué)、疾病機(jī)理研究等方面實(shí)現(xiàn)落地和持續(xù)的進(jìn)步。
AI 為解決科學(xué)問題帶來新方法的同時(shí),也對AI基礎(chǔ)軟硬件帶來諸多新挑戰(zhàn)。畢竟,推動(dòng)科學(xué)進(jìn)步與開發(fā)一個(gè)人臉識別算法需要的并不完全是一種能力。
首先,深度學(xué)習(xí)平臺(tái)需要具備更加豐富的各類計(jì)算表達(dá)能力,如高階自動(dòng)微分、復(fù)數(shù)微分、高階優(yōu)化器等;其次,科學(xué)問題求解需要超大規(guī)模的計(jì)算,這對深度學(xué)習(xí)平臺(tái)與異構(gòu)超算/智算中心適配及融合優(yōu)化,神經(jīng)網(wǎng)絡(luò)編譯器加速和大規(guī)模分布式訓(xùn)練提出了新的要求;此外,如何實(shí)現(xiàn)人工智能與傳統(tǒng)科學(xué)計(jì)算工具鏈的協(xié)同,也是需要解決的問題。
過去的這幾年,百度飛槳團(tuán)隊(duì)在這些問題取得了進(jìn)展。作為國內(nèi)首個(gè)自主研發(fā)、功能豐富、開源開放的產(chǎn)業(yè)級深度學(xué)習(xí)平臺(tái),飛槳研發(fā)了一系列用于科學(xué)研究的工具組件,比如賽槳PaddleScience、螺旋槳PaddleHelix、量槳Paddle Quantum等,支持復(fù)雜外形障礙物繞流、結(jié)構(gòu)應(yīng)力應(yīng)變分析、材料分子模擬等豐富領(lǐng)域算例,廣泛支持AI加計(jì)算流體力學(xué)、生物計(jì)算、量子計(jì)算等前沿方向的科研探索和產(chǎn)業(yè)應(yīng)用。
對于科學(xué)領(lǐng)域大規(guī)模計(jì)算的需求,飛槳推出了超大規(guī)模圖學(xué)習(xí)訓(xùn)練技術(shù)PGLBox,是業(yè)界首個(gè)同時(shí)支持復(fù)雜算法+超大圖+超大離散模型的大規(guī)模圖學(xué)習(xí)訓(xùn)練技術(shù),通過顯存、內(nèi)存、SSD三級存儲(chǔ)技術(shù)和訓(xùn)練框架的性能優(yōu)化技術(shù),單機(jī)即可支持百億節(jié)點(diǎn)、數(shù)百億邊的圖采樣和訓(xùn)練,并可通過多機(jī)擴(kuò)展支持更大規(guī)模,目前已經(jīng)在百度的智能交通、信息推薦、搜索等標(biāo)桿場景實(shí)現(xiàn)落地,大幅提升業(yè)務(wù)效率和用戶體驗(yàn)。
在科研生態(tài)方面,百度飛槳已經(jīng)與高校、科研機(jī)構(gòu)等開展了計(jì)算流體力學(xué)、分子動(dòng)力學(xué)、動(dòng)力氣象學(xué)等方面的范例建設(shè),并形成了一些開放性的、多學(xué)科交叉的生態(tài)社區(qū),包括飛槳特殊興趣小組(PPSIG)、共創(chuàng)計(jì)劃等,與各方一道進(jìn)行技術(shù)聯(lián)合開發(fā)、推廣資源共享,生態(tài)商機(jī)共建。
瞄準(zhǔn) AI for Science 賽道,對百度飛槳來說是 AI 能力的挑戰(zhàn),但一次次技術(shù)突破,也是飛槳提升能力的機(jī)會(huì)。對于整個(gè)社會(huì)也有重大意義,百度飛槳的一個(gè)個(gè)技術(shù)突破,也讓科學(xué)家們有了更好的幫手,讓技術(shù)突破擁有了更多可能性。
----------------------------- |
|