|
一鍵注冊,加入手機圈
您需要 登錄 才可以下載或查看,沒有帳號?立即注冊 
x
2023年1月6日,百度舉辦Create大會-技術開放日活動,三位百度核心技術負責人到場,輪番講解百度最新的技術進展,密集展現百度如何踐行“用科技讓復雜的世界更簡單”的愿景。
活動期間,百度不止展示了如何用“手機全雙工語音交互”改善使用導航應用的體驗,還詳細介紹了如何用“上帝視角”提升汽車的自動駕駛能力,以及如何用百度自研的深度學習平臺飛槳加速科學研究。每一項研究都切中痛點,每一項都有全球業(yè)內唯一或領先的突破,展現著百度的技術實力。
百度在技術研發(fā)上的累計投入已超過1000億元,開發(fā)了大量業(yè)界領先的技術。從改進日常生活體驗到推動前沿科技產業(yè)落地,再到加速基礎科學研究,百度的黑科技已經滲透到社會的各個方面。
這三項只是百度前沿技術中的一部分。百度將在1月10日舉辦新一屆百度CreateAI開發(fā)者大會,屆時會有更多百度技術大牛展示百度黑科技,進一步展現技術創(chuàng)新的力量如何推動增長。
實力遙遙領先的“手機全雙工語音交互”
想象一下,你正開車前往一個陌生的城市旅行,車里開著音樂、同行的朋友們聊天,車外隱約傳來一些交通噪音,你需要用手機實時播放的導航語音認路。
經過臨時討論,朋友們決定要修改目的地去一個餐廳吃飯。為了安全起見,你需要把車停在路邊,重新設置目的地,讓地圖軟件重新設置導航路線。
這是因為手機里軟件語音播報導航信息時,通常不可能識別出你說了什么。背后的原理也不難理解,如果手機App在說話的時候,又在聽,它可能會識別自己說的話,非常容易造成誤判,尤其是導航應用,直接關系到交通安全。
百度語音首席架構師賈磊說,在世界范圍內,很長時間都沒有一個方案能普適的支持在手機上實現全雙工的語音交互——在手機播放導航提示的同時,也能夠聽清我們的指令,甚至像真人對話一樣可以被我們隨時打斷,并對新的語音指令給予反饋。
困難有不少。想要實現全雙工語音交互,必須先做回聲消除,避免手機終端識別自己播放的聲音。賈磊說,在前裝軟件的音箱、車載系統(tǒng)上比較容易實現,可以通過硬件適配算法,提前保證回聲消除的效果。
而手機App屬于純軟件后裝方案,需要讓軟件算法適配不同型號的終端硬件。通常,手機上喇叭距離麥克風的距離比較近,同時手機終端款式多,硬件參差不齊。這些因素疊加在一起,會導致聲音信號的回聲消除會出現各種各樣的問題。再加上手機硬件的迭代更新非??焖伲芈曄Ч透与y以保證了。
這個難題已經被百度解決。百度的技術團隊融合傳統(tǒng)信號處理和深度學習模型各自的優(yōu)點,基于語音識別目標,端到端地進行回聲消除和信號增強,解決了手機場景下的回聲消除問題,即使手機音量開到最大,回聲消除量也能達到40分貝,使得手機APP的語音識別功能能夠正常工作。
這是世界范圍內、在全行業(yè),第一個能在手機上實現純軟件方案回聲消除的技術。
雖然手機的便攜性導致語音交互的使用場景非常復雜,在交互中常常面臨音樂、閑聊、環(huán)境噪聲、內噪殘余等與交互內容無關的其他信息干擾,語音識別難度增大。但百度研發(fā)出的基于SMLTA2的多場景統(tǒng)一預訓練模型,一個模型解決噪聲、用戶口音和回聲消除殘余吸收等難題,在各場景下識別率相對提升超過20%,這在業(yè)界同類技術中,準確率是最高的,可以說實力遙遙領先。
配合語音語義一體化的置信技術,百度的技術方案可以降低錯誤響應,并且支持交互過程中的引導和澄清,讓人機交互更智能順暢,更逼近人與人直接交互的體驗。
目前,百度已經做到在手機端實現自然流暢的全雙工語音交互,下一步將用到更多產品中。
更強悍的“上帝視角”,幫智能汽車解鎖“千里眼”
自動駕駛系統(tǒng)可以取代人類司機,讓出行更簡單,成為許多科技公司爭相投入的方向。想要讓汽車自動駕駛,關鍵在于讓系統(tǒng)全面而準確地感知、識別周圍環(huán)境。
人類駕駛員主要依靠視覺觀察道路和周邊情況,汽車靠激光雷達、毫米波雷達和高分辨率攝像頭等傳感器,它們決定了自動駕駛系統(tǒng)能獲得什么環(huán)境、路況信息。
在自動駕駛領域,傳統(tǒng)的圖像空間感知方法是將汽車上的雷達、攝像頭等不同傳感器采集來的數據分別進行分析運算,把各項分析結果融合到統(tǒng)一的空間坐標系中,去規(guī)劃車輛的行駛軌跡。這個過程中,每個獨立傳感器收集到的數據往往受到特定視角的局限,經過各自的分析運算后,融合階段會導致誤差疊加,無法拼湊出道路實際情況的準確全貌,給車輛的決策規(guī)劃帶來困難。
近些年來,行業(yè)中提出了BEV(Bird's Eye View,視覺為中心的俯視圖)自動駕駛感知方案。不同于傳統(tǒng)的方式,BEV自動駕駛感知就好比是一個從高處統(tǒng)觀全局的“上帝視角”,車上多個傳感器采集的數據,會輸入到一個統(tǒng)一模型進行整體分析推理生成鳥瞰圖,能有效地避免誤差疊加;這種方案還能夠做到時序融合,不僅是收集一個時刻的數據,分析一個時刻的數據,而是支持把過去一個時間片段中的數據都融合進模型做環(huán)境感知建模,時序信息的引入讓感知到的結果更穩(wěn)定,使得車輛對于道路情況的判斷更加準確、讓自動駕駛更安全。
百度作為全球自動駕駛技術第一梯隊的玩家,并沒有止步于BEV自動駕駛感知方案,還首次在業(yè)內提出了車路一體的解決方案UniBEV,集成了車端多相機、多傳感器的在線建圖、動態(tài)障礙物感知,以及路側視角下的多路口多傳感器融合等任務,是業(yè)內首個車路一體的端到端感知解決方案。
基于統(tǒng)一的BEV空間,UniBEV 車路一體大模型更容易實現多模態(tài)、多視角、多時間上的時空特征融合。百度借助大數據+大模型+小型化技術閉環(huán),在車端路側的動靜態(tài)感知任務上都取得了領先的成績。
硬核飛槳,加速科學研究
作為一種通用技術,人工智能不只有猜你喜歡、讓汽車自動駕駛的能力,還能幫助許多領域的科學家們加速科學研究的進程,這就是人工智能科學計算(AI for Science)。
現在已經有許多科學家團隊正在用AI幫助解決科學難題。比如在氣象領域,AI實現更快更精準的數值天氣預報,包括預測強對流天氣的短時臨近降水情況和揭示大尺度的臺風形成和演變規(guī)律。在生命科學領域,傳統(tǒng)的科研方法面臨生物類型實驗數據少、計算任務復雜、學科交叉多等挑戰(zhàn),而隨著AI應用探索的持續(xù)推進,AI已逐漸在藥物篩選、藥物設計、靶點研究、合成生物學、疾病機理研究等方面實現落地和持續(xù)的進步。
AI 為解決科學問題帶來新方法的同時,也對AI基礎軟硬件帶來諸多新挑戰(zhàn)。畢竟,推動科學進步與開發(fā)一個人臉識別算法需要的并不完全是一種能力。
首先,深度學習平臺需要具備更加豐富的各類計算表達能力,如高階自動微分、復數微分、高階優(yōu)化器等;其次,科學問題求解需要超大規(guī)模的計算,這對深度學習平臺與異構超算/智算中心適配及融合優(yōu)化,神經網絡編譯器加速和大規(guī)模分布式訓練提出了新的要求;此外,如何實現人工智能與傳統(tǒng)科學計算工具鏈的協同,也是需要解決的問題。
過去的這幾年,百度飛槳團隊在這些問題取得了進展。作為國內首個自主研發(fā)、功能豐富、開源開放的產業(yè)級深度學習平臺,飛槳研發(fā)了一系列用于科學研究的工具組件,比如賽槳PaddleScience、螺旋槳PaddleHelix、量槳Paddle Quantum等,支持復雜外形障礙物繞流、結構應力應變分析、材料分子模擬等豐富領域算例,廣泛支持AI加計算流體力學、生物計算、量子計算等前沿方向的科研探索和產業(yè)應用。
對于科學領域大規(guī)模計算的需求,飛槳推出了超大規(guī)模圖學習訓練技術PGLBox,是業(yè)界首個同時支持復雜算法+超大圖+超大離散模型的大規(guī)模圖學習訓練技術,通過顯存、內存、SSD三級存儲技術和訓練框架的性能優(yōu)化技術,單機即可支持百億節(jié)點、數百億邊的圖采樣和訓練,并可通過多機擴展支持更大規(guī)模,目前已經在百度的智能交通、信息推薦、搜索等標桿場景實現落地,大幅提升業(yè)務效率和用戶體驗。
在科研生態(tài)方面,百度飛槳已經與高校、科研機構等開展了計算流體力學、分子動力學、動力氣象學等方面的范例建設,并形成了一些開放性的、多學科交叉的生態(tài)社區(qū),包括飛槳特殊興趣小組(PPSIG)、共創(chuàng)計劃等,與各方一道進行技術聯合開發(fā)、推廣資源共享,生態(tài)商機共建。
瞄準 AI for Science 賽道,對百度飛槳來說是 AI 能力的挑戰(zhàn),但一次次技術突破,也是飛槳提升能力的機會。對于整個社會也有重大意義,百度飛槳的一個個技術突破,也讓科學家們有了更好的幫手,讓技術突破擁有了更多可能性。
----------------------------- |
|