揭秘百度黑科技：不只改善生活，還可賦能科研

科技閻羅君 · 發(fā)表于 2023-1-7 04:23:14

一鍵注冊，加入手機(jī)圈

您需要登錄才可以下載或查看，沒有帳號？立即注冊

x

2023年1月6日，百度舉辦Create大會(huì)-技術(shù)開放日活動(dòng)，三位百度核心技術(shù)負(fù)責(zé)人到場，輪番講解百度最新的技術(shù)進(jìn)展，密集展現(xiàn)百度如何踐行“用科技讓復(fù)雜的世界更簡單”的愿景。
活動(dòng)期間，百度不止展示了如何用“手機(jī)全雙工語音交互”改善使用導(dǎo)航應(yīng)用的體驗(yàn)，還詳細(xì)介紹了如何用“上帝視角”提升汽車的自動(dòng)駕駛能力，以及如何用百度自研的深度學(xué)習(xí)平臺(tái)飛槳加速科學(xué)研究。每一項(xiàng)研究都切中痛點(diǎn)，每一項(xiàng)都有全球業(yè)內(nèi)唯一或領(lǐng)先的突破，展現(xiàn)著百度的技術(shù)實(shí)力。
百度在技術(shù)研發(fā)上的累計(jì)投入已超過1000億元，開發(fā)了大量業(yè)界領(lǐng)先的技術(shù)。從改進(jìn)日常生活體驗(yàn)到推動(dòng)前沿科技產(chǎn)業(yè)落地，再到加速基礎(chǔ)科學(xué)研究，百度的黑科技已經(jīng)滲透到社會(huì)的各個(gè)方面。
這三項(xiàng)只是百度前沿技術(shù)中的一部分。百度將在1月10日舉辦新一屆百度CreateAI開發(fā)者大會(huì)，屆時(shí)會(huì)有更多百度技術(shù)大牛展示百度黑科技，進(jìn)一步展現(xiàn)技術(shù)創(chuàng)新的力量如何推動(dòng)增長。
實(shí)力遙遙領(lǐng)先的“手機(jī)全雙工語音交互”

想象一下，你正開車前往一個(gè)陌生的城市旅行，車?yán)镩_著音樂、同行的朋友們聊天，車外隱約傳來一些交通噪音，你需要用手機(jī)實(shí)時(shí)播放的導(dǎo)航語音認(rèn)路。
經(jīng)過臨時(shí)討論，朋友們決定要修改目的地去一個(gè)餐廳吃飯。為了安全起見，你需要把車停在路邊，重新設(shè)置目的地，讓地圖軟件重新設(shè)置導(dǎo)航路線。
這是因?yàn)槭謾C(jī)里軟件語音播報(bào)導(dǎo)航信息時(shí)，通常不可能識別出你說了什么。背后的原理也不難理解，如果手機(jī)App在說話的時(shí)候，又在聽，它可能會(huì)識別自己說的話，非常容易造成誤判，尤其是導(dǎo)航應(yīng)用，直接關(guān)系到交通安全。
百度語音首席架構(gòu)師賈磊說，在世界范圍內(nèi)，很長時(shí)間都沒有一個(gè)方案能普適的支持在手機(jī)上實(shí)現(xiàn)全雙工的語音交互——在手機(jī)播放導(dǎo)航提示的同時(shí)，也能夠聽清我們的指令，甚至像真人對話一樣可以被我們隨時(shí)打斷，并對新的語音指令給予反饋。
困難有不少。想要實(shí)現(xiàn)全雙工語音交互，必須先做回聲消除，避免手機(jī)終端識別自己播放的聲音。賈磊說，在前裝軟件的音箱、車載系統(tǒng)上比較容易實(shí)現(xiàn)，可以通過硬件適配算法，提前保證回聲消除的效果。
而手機(jī)App屬于純軟件后裝方案，需要讓軟件算法適配不同型號的終端硬件。通常，手機(jī)上喇叭距離麥克風(fēng)的距離比較近，同時(shí)手機(jī)終端款式多，硬件參差不齊。這些因素疊加在一起，會(huì)導(dǎo)致聲音信號的回聲消除會(huì)出現(xiàn)各種各樣的問題。再加上手機(jī)硬件的迭代更新非常快速，回聲消除效果就更加難以保證了。
這個(gè)難題已經(jīng)被百度解決。百度的技術(shù)團(tuán)隊(duì)融合傳統(tǒng)信號處理和深度學(xué)習(xí)模型各自的優(yōu)點(diǎn)，基于語音識別目標(biāo)，端到端地進(jìn)行回聲消除和信號增強(qiáng)，解決了手機(jī)場景下的回聲消除問題，即使手機(jī)音量開到最大，回聲消除量也能達(dá)到40分貝，使得手機(jī)APP的語音識別功能能夠正常工作。
這是世界范圍內(nèi)、在全行業(yè)，第一個(gè)能在手機(jī)上實(shí)現(xiàn)純軟件方案回聲消除的技術(shù)。
雖然手機(jī)的便攜性導(dǎo)致語音交互的使用場景非常復(fù)雜，在交互中常常面臨音樂、閑聊、環(huán)境噪聲、內(nèi)噪殘余等與交互內(nèi)容無關(guān)的其他信息干擾，語音識別難度增大。但百度研發(fā)出的基于SMLTA2的多場景統(tǒng)一預(yù)訓(xùn)練模型，一個(gè)模型解決噪聲、用戶口音和回聲消除殘余吸收等難題，在各場景下識別率相對提升超過20%，這在業(yè)界同類技術(shù)中，準(zhǔn)確率是最高的，可以說實(shí)力遙遙領(lǐng)先。
配合語音語義一體化的置信技術(shù)，百度的技術(shù)方案可以降低錯(cuò)誤響應(yīng)，并且支持交互過程中的引導(dǎo)和澄清，讓人機(jī)交互更智能順暢，更逼近人與人直接交互的體驗(yàn)。
目前，百度已經(jīng)做到在手機(jī)端實(shí)現(xiàn)自然流暢的全雙工語音交互，下一步將用到更多產(chǎn)品中。
更強(qiáng)悍的“上帝視角”，幫智能汽車解鎖“千里眼”

自動(dòng)駕駛系統(tǒng)可以取代人類司機(jī)，讓出行更簡單，成為許多科技公司爭相投入的方向。想要讓汽車自動(dòng)駕駛，關(guān)鍵在于讓系統(tǒng)全面而準(zhǔn)確地感知、識別周圍環(huán)境。
人類駕駛員主要依靠視覺觀察道路和周邊情況，汽車靠激光雷達(dá)、毫米波雷達(dá)和高分辨率攝像頭等傳感器，它們決定了自動(dòng)駕駛系統(tǒng)能獲得什么環(huán)境、路況信息。
在自動(dòng)駕駛領(lǐng)域，傳統(tǒng)的圖像空間感知方法是將汽車上的雷達(dá)、攝像頭等不同傳感器采集來的數(shù)據(jù)分別進(jìn)行分析運(yùn)算，把各項(xiàng)分析結(jié)果融合到統(tǒng)一的空間坐標(biāo)系中，去規(guī)劃車輛的行駛軌跡。這個(gè)過程中，每個(gè)獨(dú)立傳感器收集到的數(shù)據(jù)往往受到特定視角的局限，經(jīng)過各自的分析運(yùn)算后，融合階段會(huì)導(dǎo)致誤差疊加，無法拼湊出道路實(shí)際情況的準(zhǔn)確全貌，給車輛的決策規(guī)劃帶來困難。
近些年來，行業(yè)中提出了BEV（Bird&#39;s Eye View，視覺為中心的俯視圖）自動(dòng)駕駛感知方案。不同于傳統(tǒng)的方式，BEV自動(dòng)駕駛感知就好比是一個(gè)從高處統(tǒng)觀全局的“上帝視角”，車上多個(gè)傳感器采集的數(shù)據(jù)，會(huì)輸入到一個(gè)統(tǒng)一模型進(jìn)行整體分析推理生成鳥瞰圖，能有效地避免誤差疊加；這種方案還能夠做到時(shí)序融合，不僅是收集一個(gè)時(shí)刻的數(shù)據(jù)，分析一個(gè)時(shí)刻的數(shù)據(jù)，而是支持把過去一個(gè)時(shí)間片段中的數(shù)據(jù)都融合進(jìn)模型做環(huán)境感知建模，時(shí)序信息的引入讓感知到的結(jié)果更穩(wěn)定，使得車輛對于道路情況的判斷更加準(zhǔn)確、讓自動(dòng)駕駛更安全。
百度作為全球自動(dòng)駕駛技術(shù)第一梯隊(duì)的玩家，并沒有止步于BEV自動(dòng)駕駛感知方案，還首次在業(yè)內(nèi)提出了車路一體的解決方案UniBEV，集成了車端多相機(jī)、多傳感器的在線建圖、動(dòng)態(tài)障礙物感知，以及路側(cè)視角下的多路口多傳感器融合等任務(wù)，是業(yè)內(nèi)首個(gè)車路一體的端到端感知解決方案。
基于統(tǒng)一的BEV空間，UniBEV 車路一體大模型更容易實(shí)現(xiàn)多模態(tài)、多視角、多時(shí)間上的時(shí)空特征融合。百度借助大數(shù)據(jù)+大模型+小型化技術(shù)閉環(huán)，在車端路側(cè)的動(dòng)靜態(tài)感知任務(wù)上都取得了領(lǐng)先的成績。
硬核飛槳，加速科學(xué)研究

作為一種通用技術(shù)，人工智能不只有猜你喜歡、讓汽車自動(dòng)駕駛的能力，還能幫助許多領(lǐng)域的科學(xué)家們加速科學(xué)研究的進(jìn)程，這就是人工智能科學(xué)計(jì)算（AI for Science）。
現(xiàn)在已經(jīng)有許多科學(xué)家團(tuán)隊(duì)正在用AI幫助解決科學(xué)難題。比如在氣象領(lǐng)域，AI實(shí)現(xiàn)更快更精準(zhǔn)的數(shù)值天氣預(yù)報(bào)，包括預(yù)測強(qiáng)對流天氣的短時(shí)臨近降水情況和揭示大尺度的臺(tái)風(fēng)形成和演變規(guī)律。在生命科學(xué)領(lǐng)域，傳統(tǒng)的科研方法面臨生物類型實(shí)驗(yàn)數(shù)據(jù)少、計(jì)算任務(wù)復(fù)雜、學(xué)科交叉多等挑戰(zhàn)，而隨著AI應(yīng)用探索的持續(xù)推進(jìn)，AI已逐漸在藥物篩選、藥物設(shè)計(jì)、靶點(diǎn)研究、合成生物學(xué)、疾病機(jī)理研究等方面實(shí)現(xiàn)落地和持續(xù)的進(jìn)步。
AI 為解決科學(xué)問題帶來新方法的同時(shí)，也對AI基礎(chǔ)軟硬件帶來諸多新挑戰(zhàn)。畢竟，推動(dòng)科學(xué)進(jìn)步與開發(fā)一個(gè)人臉識別算法需要的并不完全是一種能力。
首先，深度學(xué)習(xí)平臺(tái)需要具備更加豐富的各類計(jì)算表達(dá)能力，如高階自動(dòng)微分、復(fù)數(shù)微分、高階優(yōu)化器等；其次，科學(xué)問題求解需要超大規(guī)模的計(jì)算，這對深度學(xué)習(xí)平臺(tái)與異構(gòu)超算/智算中心適配及融合優(yōu)化，神經(jīng)網(wǎng)絡(luò)編譯器加速和大規(guī)模分布式訓(xùn)練提出了新的要求；此外，如何實(shí)現(xiàn)人工智能與傳統(tǒng)科學(xué)計(jì)算工具鏈的協(xié)同，也是需要解決的問題。
過去的這幾年，百度飛槳團(tuán)隊(duì)在這些問題取得了進(jìn)展。作為國內(nèi)首個(gè)自主研發(fā)、功能豐富、開源開放的產(chǎn)業(yè)級深度學(xué)習(xí)平臺(tái)，飛槳研發(fā)了一系列用于科學(xué)研究的工具組件，比如賽槳PaddleScience、螺旋槳PaddleHelix、量槳Paddle Quantum等，支持復(fù)雜外形障礙物繞流、結(jié)構(gòu)應(yīng)力應(yīng)變分析、材料分子模擬等豐富領(lǐng)域算例，廣泛支持AI加計(jì)算流體力學(xué)、生物計(jì)算、量子計(jì)算等前沿方向的科研探索和產(chǎn)業(yè)應(yīng)用。
對于科學(xué)領(lǐng)域大規(guī)模計(jì)算的需求，飛槳推出了超大規(guī)模圖學(xué)習(xí)訓(xùn)練技術(shù)PGLBox，是業(yè)界首個(gè)同時(shí)支持復(fù)雜算法+超大圖+超大離散模型的大規(guī)模圖學(xué)習(xí)訓(xùn)練技術(shù)，通過顯存、內(nèi)存、SSD三級存儲(chǔ)技術(shù)和訓(xùn)練框架的性能優(yōu)化技術(shù)，單機(jī)即可支持百億節(jié)點(diǎn)、數(shù)百億邊的圖采樣和訓(xùn)練，并可通過多機(jī)擴(kuò)展支持更大規(guī)模，目前已經(jīng)在百度的智能交通、信息推薦、搜索等標(biāo)桿場景實(shí)現(xiàn)落地，大幅提升業(yè)務(wù)效率和用戶體驗(yàn)。
在科研生態(tài)方面，百度飛槳已經(jīng)與高校、科研機(jī)構(gòu)等開展了計(jì)算流體力學(xué)、分子動(dòng)力學(xué)、動(dòng)力氣象學(xué)等方面的范例建設(shè)，并形成了一些開放性的、多學(xué)科交叉的生態(tài)社區(qū)，包括飛槳特殊興趣小組(PPSIG)、共創(chuàng)計(jì)劃等，與各方一道進(jìn)行技術(shù)聯(lián)合開發(fā)、推廣資源共享，生態(tài)商機(jī)共建。
瞄準(zhǔn) AI for Science 賽道，對百度飛槳來說是 AI 能力的挑戰(zhàn)，但一次次技術(shù)突破，也是飛槳提升能力的機(jī)會(huì)。對于整個(gè)社會(huì)也有重大意義，百度飛槳的一個(gè)個(gè)技術(shù)突破，也讓科學(xué)家們有了更好的幫手，讓技術(shù)突破擁有了更多可能性。

-----------------------------

帳號		自動(dòng)登錄	找回密碼
密碼			立即注冊

揭秘百度黑科技：不只改善生活，還可賦能科研

一鍵注冊，加入手機(jī)圈

一鍵注冊，加入手機(jī)圈