|
先說結論:
1、四舍五入,可以這么說。
2、當然,手機的 CPU 和屏幕代表了人類的頂尖制程工藝,手機里的AI芯片代表了人工智能的藍海。但要論想象空間,攝像頭確實是個劍走偏鋒的好答案。
3、就拿手機來說,攝像頭是連接虛擬世界和現(xiàn)實世界的橋梁。無論是 AR(增強現(xiàn)實)還是 XR(混合現(xiàn)實),兩個世界的信息都只能通過攝像頭來傳遞。比如很多手機正在添加了用攝像頭為物理世界在虛擬空間里建模的功能。
4、當然不是說最近一兩年手機攝像頭相關的應用就一定會迎來爆發(fā),但是,各行各業(yè)的牛人卻正在這個方向積極探索。畢竟機會只會留給有準備的人嘛!
不久前,我剛剛和淘寶還有夸克的技術大牛們聊過這個問題,他們給我描繪的未來還是挺有趣的,我貼在這里,希望對你了解這個有些縹緲但激動人心的未來有幫助呀~
像素時代的黃昏和“淘寶叛軍”
文|史中
如果我們的后代站在未來回望,很可能會把60后、70后、80后、90后、00后、10后,都歸為“同一代人”,這個時代就叫“像素時代”。
而從“20后”開始,新一代人出現(xiàn)了,他們的時代叫作“體素時代”。
此時此刻,我們也許正站在歷史的轉折點上,少數(shù)人歡欣鼓舞,而多數(shù)人懵然無知。
我厚顏無恥地希望,這篇文章也許能成為大家理解未來的一個小小扳手。
(一)像素時代的“黃昏”
用輕松的方式開場吧,來回顧一下俺們的共同回憶。
比如,我們一起經(jīng)歷過戰(zhàn)爭與和平。
攝像頭是手機上最寶藏的一個模塊嗎?-1.jpg (169.43 KB, 下載次數(shù): 6)
下載附件
2023-2-19 15:11 上傳
體驗過愛與死。
攝像頭是手機上最寶藏的一個模塊嗎?-2.jpg (106.4 KB, 下載次數(shù): 6)
下載附件
2023-2-19 15:11 上傳
見證了榮耀與夢想。
攝像頭是手機上最寶藏的一個模塊嗎?-3.jpg (98.89 KB, 下載次數(shù): 6)
下載附件
2023-2-19 15:11 上傳
也品嘗過柴米油鹽、江湖恩怨。
攝像頭是手機上最寶藏的一個模塊嗎?-4.jpg (196.71 KB, 下載次數(shù): 5)
下載附件
2023-2-19 15:11 上傳
但是,你有沒有發(fā)現(xiàn)一個問題——無論如何努力回想,這些經(jīng)典的畫面都只能以“平面”的方式在我們腦海里放映:
魂斗羅、坦克大戰(zhàn)當然本身就是平面游戲;
《大話西游》、“奧運開幕”也是同樣,我們只能站在攝影師的角度去還原當時的場景,至于鏡頭里恰好背對我們的人,當時他們有怎樣的表情、狀態(tài),將成為一個謎,重溫者永遠不得而知。
網(wǎng)頁就更是平面的了,一般人根本不會提出“網(wǎng)頁的背面長什么樣”這種蛇精病問題——它就沒有背面。
平面信息是如此深刻地滲入我們的生活,以至于萬物都離不開一個關鍵詞:“像素”。
屏幕要看像素,攝像頭要看像素,照片、視頻都要看像素。仔細想想,世界上沒有任何一個專業(yè)技術詞匯能像“像素”這樣被普通大眾所理解,普及到一個農(nóng)村阿姨也能脫口而出。
看到這兒,你也許有點摸不著頭腦——像素有啥不好?我從小喝到大,生活中一切需求都能滿足啊。。。
攝像頭是手機上最寶藏的一個模塊嗎?-5.jpg (68.89 KB, 下載次數(shù): 6)
下載附件
2023-2-19 15:11 上傳
你看,有人把電影的演職員表展開,就是一大張圖片。
這里按下暫停鍵,我必須強行問你一句:真的是這樣么?
如果把“像素”換成“體素”呢?
1、防止有淺友不知道,我先解釋一下什么是“體素”。
其實很容易理解:在平面空間組成信息的元素叫像素,在立體空間里組成信息的元素就叫體素。(一個像素包含xy兩個參數(shù),而一個體素包含xyz三個參數(shù)。)
比如:《仙劍奇?zhèn)b傳》里李逍遙就是用“像素”拼成的,而在《我的世界》里,主角史蒂夫就是由體素組成的。
攝像頭是手機上最寶藏的一個模塊嗎?-6.jpg (44.46 KB, 下載次數(shù): 6)
下載附件
2023-2-19 15:11 上傳
2、再解釋一下什么是“體素時代”。
當日常生活中的大多數(shù)信息都以體素來“標記”和“傳遞”的時候,我們就四舍五入邁進了體素時代。
舉個簡單的例子:
你拼了一個很好看的汽車模型,想跟朋友顯擺一下。
今天的操作是,你選一個(或幾個)角度拍“照片”發(fā)到朋友圈,大家可以放大、縮小,隨便看;
但未來很可能是,你用手機環(huán)繞模型拍一圈,它就會在三維世界自動生成一個立體的模型,你把這個“影像”發(fā)到朋友圈,大家就可以隨意轉動,相當于從無數(shù)個角度無死角欣賞你的作品。
當然,你有沒有勇氣讓別人無死角欣賞自己的作品是另一個問題,但這里我想說明的是:
“體素時代”能夠傳遞的信息,比“像素時代”要完整和豐富得多。
就像這樣↓↓↓
攝像頭是手機上最寶藏的一個模塊嗎?-7.jpg (8.96 KB, 下載次數(shù): 6)
下載附件
2023-2-19 15:11 上傳
你還記得《三體》的結尾有一個經(jīng)典情節(jié)不?
太陽系被未知文明的二向箔從3D狀態(tài)“拍”成2D狀態(tài)?!俺绦穆眯袌F”一行在冥王星上目睹了地球“躺平”的全過程。
文中描述,三維世界的地球內(nèi)部有豐富的結構,在不損失信息的情況下變成二維的,面積就會變得巨大,像一張宇宙烙餅。
難以想象么?沒關系,在B站上有同學(@Ele實驗室)用數(shù)學方法模擬了這個過程,就如下圖:
攝像頭是手機上最寶藏的一個模塊嗎?-8.jpg (56.78 KB, 下載次數(shù): 6)
下載附件
2023-2-19 15:11 上傳
(鏈接附后,感興趣淺友可以移步看完整版)
地球的故事告訴我們,如果“體素時代”的信息量是“弱水三千”,像素時代就只是“取了一瓢飲”。那,有沒有一種可能:踏進體素時代,就像一個人住過別墅花園,再也回不去鴿籠蝸居?
體素時代早有征兆:
比如,《黑客帝國》開創(chuàng)的“子彈時間”和《阿凡達》開創(chuàng)的“3D 電影”;比如,以《絕地求生》《堡壘之夜》為代表的第一人稱游戲;
比如,Oculus VR 眼鏡、正在趕來的蘋果 AR 眼鏡和各路牛鬼蛇神的元宇宙雛形。
攝像頭是手機上最寶藏的一個模塊嗎?-9.jpg (30.52 KB, 下載次數(shù): 6)
下載附件
2023-2-19 15:11 上傳
Meta 的“VR 社交平臺”Horizon Worlds
這些嘗試的意義在于,它們?yōu)槭澜绶e累了“3D建模系統(tǒng)”、“虛擬渲染引擎”、“頭顯硬件”等諸多技術。這些技術,可以看做是涓滴細水,而它們終究會匯在一起,成為“時代的泥石流”。
現(xiàn)在,泥石流近在眼前。
最先進入體素時代的將會是我們生活的哪個部分呢?
我盲猜有三個:電商、社交、搜索。
這三個領域,熟不熟悉?夢回2000年,互聯(lián)網(wǎng)的流金歲月,我們的生活不恰恰也是從這三個領域開始變革的嗎?
如果,我們20年前經(jīng)歷的那一波以“像素”為代表的的科技浪潮,在今天以同樣摧枯拉朽的姿勢重新席卷一遍——我們也許將看到體素時代的淘寶、微信和百度。
這不是在憑空想象,端倪已經(jīng)出現(xiàn)。
就在前兩天,我和淘寶的幾個前沿技術團隊聊了聊。在他們眼里,體素時代正如黎明一般迫近。而這群技術理想主義者,趁其他人還沒睡醒,就已經(jīng)背上行囊向星辰大海進發(fā)了。
攝像頭是手機上最寶藏的一個模塊嗎?-10.jpg (173.98 KB, 下載次數(shù): 6)
下載附件
2023-2-19 15:11 上傳
(二)前輩們留下的“兩把鑰匙”
說實話,現(xiàn)在為“體素時代”擂鼓助威,我心里也有點發(fā)虛。
為啥呢?因為歷史上,這個時代四舍五入已經(jīng)“來”過一次,而且又走了。。。
那是遙遠的2016年,還沒有國際形勢的劍拔弩張,只有人們對愛與科技的幻想。
那一年,谷歌地球的創(chuàng)始人,整天幻想怪物出沒的老男孩漢克搞出了《PokémonGo》(寶可夢Go),人們拿著手機對準無趣的草叢和平常巷陌,就能發(fā)現(xiàn)寵物小精靈隱藏其中,一個精靈球甩過去,捕獲神獸,爽點爆棚。
攝像頭是手機上最寶藏的一個模塊嗎?-11.jpg (82.84 KB, 下載次數(shù): 6)
下載附件
2023-2-19 15:11 上傳
攝像頭是手機上最寶藏的一個模塊嗎?-12.jpg (148.08 KB, 下載次數(shù): 6)
下載附件
2023-2-19 15:11 上傳
《PokémonGo》和漢克
VR/AR 的熱潮就這么出現(xiàn)了。
彼時尚未嗅到命運血腥的暴風影音信心滿懷推出 VR 眼鏡;光線傳媒、愛奇藝這樣的頂級內(nèi)容制作商也開始重金制作 VR 影片;明星初創(chuàng)公司 MagicLeap 在網(wǎng)上強推了一個短片——籃球場的木地板上,一只鯨魚騰空躍起,收獲四座尖叫。
攝像頭是手機上最寶藏的一個模塊嗎?-13.jpg (22.6 KB, 下載次數(shù): 6)
下載附件
2023-2-19 15:11 上傳
當時的淘寶也深受鼓舞,在2016年的“淘寶造物節(jié)”上推出了VR購物模塊——“Buy+”。人們不用買VR眼鏡,也能在手機屏幕上體驗到“3D購物”的樂趣。
現(xiàn)在說起“Buy+”,其實很多人都不太記得。
這是因為,Buy+本身就是實驗性的。雖然大家第一感覺很驚艷,但在那個技術尚不成熟的世界里,要把“腦袋”轉到對準地上的箭頭才能走路,可以說“舉步維艱”;好不容易走到貨架前,商品種類也是有限的,還不能享受和店家講價的快感。體驗并不完善。
所以,嘗鮮之后,大多數(shù)人也就淡忘了。
攝像頭是手機上最寶藏的一個模塊嗎?-14.jpg (43.85 KB, 下載次數(shù): 6)
下載附件
2023-2-19 15:11 上傳
攝像頭是手機上最寶藏的一個模塊嗎?-15.jpg (66.35 KB, 下載次數(shù): 5)
下載附件
2023-2-19 15:11 上傳
但從歷史的角度看,Buy+ 意義重大。
因為它證明了“體素時代”雖好,但沒辦法跑步進入。而且,它還用自己的經(jīng)驗教訓給后人留下了進入體素時代的“兩把鑰匙”:
第一把鑰匙:人人都得用得起;
這里的人人包括兩個,賣家和買家。
當時為一套洗發(fā)水3D建模所花的錢,恨不得能買半車洗發(fā)水,除了大廠,又有幾家公司用得起呢?而且,如果模型稍微精細一點,一般的手機就跑不起來,得用上專業(yè)的“頭顯設備”,這又有幾個用戶愿意用呢?
所以,大幅降低“建模建設”和“模型渲染”的成本,就是必要條件。
攝像頭是手機上最寶藏的一個模塊嗎?-16.jpg (50.63 KB, 下載次數(shù): 7)
下載附件
2023-2-19 15:11 上傳
第二把鑰匙:體驗不能凹造型。
還拿洗發(fā)水舉例,這類生活用品人人都熟悉,連質(zhì)感氣味形狀都知道,好像不必通過3D模型了解。。。這樣的場景就很難給人提供新的刺激。
所以,找到能發(fā)揮3D模型功能的獨特場景,也是必要條件。
攝像頭是手機上最寶藏的一個模塊嗎?-17.jpg (81.26 KB, 下載次數(shù): 7)
下載附件
2023-2-19 15:11 上傳
2016年的那波 AR/VR 熱潮很快就過去了。但“降低成本”和“尋找場景”這兩把鑰匙卻傳給了后來人。(這兩把鑰匙我用綠色字體表示,后面說到鑰匙的時候,我還會用綠色標注。)
灰燼之下,開始有了新芽。
(三)體素時代的“商品詳情頁”
不妨把進度條拉到2021年,也就是我們今天故事的前夜。
你會發(fā)現(xiàn),那時的“淘寶App”就像一個大逃殺戰(zhàn)場:很多當年大開大合的 VR/AR 功能都已殘血進入了蟄伏期,而一些實用的小功能,反而因為用戶的支持“茍”住了。
比如,“AR試”。
也就是通過攝像頭來試鞋、試妝、試表和試眼鏡。
攝像頭是手機上最寶藏的一個模塊嗎?-18.jpg (42.95 KB, 下載次數(shù): 6)
下載附件
2023-2-19 15:11 上傳
“AR試”之所以能通過大逃殺活下來,恰恰是因為手握那兩把鑰匙:1)一目了然就能看到商品上身的效果,給用戶提供了很實在的參考,這是場景合適;2)運用了一種名叫 WebXR 的輕量化技術,幾乎所有手機都能無壓力地運行3D計算,這是成本低廉。
注意,剛才我提到一個生詞,WebXR。
多介紹幾句,WebXR 最早是2016年由 Mozilla(就是做火狐瀏覽器那個)的幾位技術宅提出的框架,它的理想就是:手機上不用下載任何軟件,僅僅打開瀏覽器就能進入3D世界。(XR的意思就是AR、VR、MR,什么R都行)
那幾年,雖然 XR 產(chǎn)業(yè)遭遇了血雨腥風,但 WebXR 技術本身卻在社區(qū)的貢獻之下日益精進,越來越輕量化,越來越親民。
攝像頭是手機上最寶藏的一個模塊嗎?-19.jpg (37.97 KB, 下載次數(shù): 6)
下載附件
2023-2-19 15:11 上傳
好了,有了這些鋪墊,現(xiàn)在請上我們今天第一位主角,承越。
承越是個資深 XR 愛好者,2016年的時候就吃了螃蟹——當時他看完 HTC Vive 頭顯的發(fā)布會,直接上頭,下單剁手。
攝像頭是手機上最寶藏的一個模塊嗎?-20.jpg (111.54 KB, 下載次數(shù): 6)
下載附件
2023-2-19 15:11 上傳
(和我打視頻電話中的)承越
2021年時,他在淘寶的技術團隊負責會場、頻道的開發(fā),一方面看到“AR試”很受歡迎,一方面看到 WebXR 在互動技術上有了新進步,他又有點上頭:
既然手表、鞋,這種東西能在線試,那么更復雜的東西,例如小家電的拆裝和使用,能不能在線試呢?
想到這,他坐不住了,帶著幾位同學成立了一個“f(x)團隊”,嘗試把 WebXR 這幾年的最新技術推進實戰(zhàn)。
調(diào)研了半天,他們決定先做一個“商品說明書”。
啥是說明書?
我們分析發(fā)現(xiàn)了一個有趣的現(xiàn)象:人們?yōu)g覽淘寶商品的時候,通常會在“物品+場景”那張圖上停留很長時間,這說明人們不止關心商品本身,更關心商品和環(huán)境在一起的信息。也就是,“商品應該用在哪里”。
比如一個吸塵器,有很多組件、吸頭,它們怎么裝配才能吸地毯,怎么裝配才能吸瓷磚呢?
這些信息雖然在家電說明書里都有記載,但人們看上去不直觀,我們就把這些組件都做成3D模型,用戶在3D空間里拆裝、使用,很快就能明白它的用法,這就是“商品說明書”啦。
承越說。
我仔細體會了一下,這么說來,要想做出一個好的“商品說明書”,承越他們不僅需要把“商品本身”變成“可拆裝的3D模型”,還得把“商品使用的場景”變成“3D空間”。
攝像頭是手機上最寶藏的一個模塊嗎?-21.jpg (22.8 KB, 下載次數(shù): 6)
下載附件
2023-2-19 15:11 上傳
但這件事兒沒有說起來那么容易——在商品過剩的時代,用戶是很挑剔的,你這說明書但凡“不流暢”或者“不真實”,大家就會覺得沒必要在這浪費時間,轉頭就走。。。
于是,第一個坑來了。
悖論擺在面前:要保證流暢,3D模型就要精簡;可模型一精簡,就會失真,變成五毛特效。
思來想去,承越他們只好對模型分情況“雕刻”——用戶可以互動的地方,模型就盡量做得精細,用戶不互動的地方,就盡量把模型做小。
攝像頭是手機上最寶藏的一個模塊嗎?-22.jpg (39.21 KB, 下載次數(shù): 6)
下載附件
2023-2-19 15:11 上傳
說到互動,第二個坑來了。
如果想實現(xiàn)“互動”功能,就必須往這些模型里注入“靈魂”,也就是“功能代碼”。但這些代碼也會占很大一部分空間。。。
承越告訴我,標準的 WebXR 框架包括很細致的交互動作。比如,你的手放到一個物體上,可以觸發(fā)一個命令;手指移動,也會觸發(fā)命令;移動停止也能觸發(fā)命令,抬起手指還會觸發(fā)一個命令。
作為一個框架,設計的時候當然要考慮所有情況,無可厚非。但如果直接拿來就用,就會讓最終的成品充滿無用代碼,變得很臃腫。直接表現(xiàn)就是——用戶點開之后,要看著進度條加載半天。
所以,要想做出好東西,精簡“WebXR”的框架是不可省略的動作。
承越說,為了搞清楚一堆代碼之間的調(diào)用關系,他們把所有功能都畫在墻上,然后用“連連看”把不同模塊的關系搞清楚,最后,再一根根剪斷。
有點像拆彈部隊,面對一堆雜亂無章的線,卻不能犯錯誤。一旦把有用的功能給剪掉,就會“爆炸”。
他笑。
從2022年春節(jié)開始,雕刻了兩個月,成果斐然,f(x)團隊總算把這套 Demo 從最初的幾百M精簡到了10M以內(nèi)。這就已經(jīng)相當于一個短視頻的大小了,普通手機、普通網(wǎng)速下載起來也沒壓力。
攝像頭是手機上最寶藏的一個模塊嗎?-23.jpg (79.38 KB, 下載次數(shù): 7)
下載附件
2023-2-19 15:11 上傳
至此,不妨再跟著我想象一下這個說明書的樣子:
1)一個3D小房間,里面有一個(或多個)商品。
2)你可以進入這個房間,仔細研究商品的功能,而商品各個部位的屬性、參數(shù),也都用懸浮泡泡的方式展示在旁邊。
3)賽博空間里,這樣的3D小房間還可以有很多,無窮無盡,他們之間相互連通,你可以走來走去。
你有沒有發(fā)現(xiàn):這個商品的3D小房間,有點像我們熟悉的“商品詳情頁”。而如果布置妥當,小房間能給你傳達的信息,其實比詳情頁更多、更直接。
也就是說,“3D商品說明書”只是這個設想的初級階段,未來它很有可能成為新一代的“3D商品詳情頁”。
攝像頭是手機上最寶藏的一個模塊嗎?-24.jpg (93.03 KB, 下載次數(shù): 6)
下載附件
2023-2-19 15:11 上傳
說到這,你可能就明白了, 承越他們正是在為“體素時代”的到來尋找那把鑰匙——合適的場景。(注意,是綠色字體)
承越幫我設想了一個標準場景:
未來朋友分享給我一個商品,很可能不是商品詳情頁,而是一個“3D房間”的鏈接,我只要點擊,一秒就能進入這個3D房間,在里面體驗過商品的詳細功能,如果覺得好,就能直接下單購買!
這聽上去還挺酷的。
好,我們繼續(xù)。如果你接受了“體素時代會有很多3D房間”這個設定,就一定會想到:未來這些房間里恐怕需要大量的“3D商品”來填充。
于是,這些3D商品怎么才能“低成本”、“大量地”建模制作出來,就成了迫切需要解決的問題。
巧了,在淘寶技術團隊,恰好有一群大牛在研究這個問題。
攝像頭是手機上最寶藏的一個模塊嗎?-25.jpg (33.39 KB, 下載次數(shù): 5)
下載附件
2023-2-19 15:11 上傳
(四)“侵略者”和“造物者”
2021年春天,友聞開心地一蹦三尺。
纏繞在他心頭的一團亂麻,被一把利劍劈開。
這團“亂麻”是啥呢?
多介紹一句背景:友聞帶領一群技術宅,服務于“每平每屋”。應該有不少人用過“每平每屋”,就是阿里巴巴旗下的家居平臺,可以在上面買家具,也可以請設計師幫你搞家居設計和裝修。
然鵝,賣家居是個很費勁的事兒,因為家具款式和裝修風格各有不同,顧客很難想象出一個沙發(fā)放到一種裝修風格里的樣子。。。想象不出來,就不敢買嘛。
所以,最好的辦法就是“先嘗后買”——下單之前,讓設計師先幫你做出一套“3D設計圖”瞧瞧。
就像這樣???
攝像頭是手機上最寶藏的一個模塊嗎?-26.jpg (165.01 KB, 下載次數(shù): 8)
下載附件
2023-2-19 15:11 上傳
攝像頭是手機上最寶藏的一個模塊嗎?-27.jpg (30.1 KB, 下載次數(shù): 6)
下載附件
2023-2-19 15:11 上傳
但設計師干活兒是要錢的。一個裝修方案的3D設計最少也得1000塊,一個沙發(fā)的手繪3D模型最便宜也要200塊。一般人看到這么貴,就打退堂鼓了,我還不如去線下家具店看看實物呢。。。
所以,友聞和團隊的任務就是:找到一種方法,用計算機來代替人類進行“建?!焙汀霸O計”,大大降低“試”的成本。
但是這件事兒談何容易。2020年,友聞和團隊研究了一年,嘗試了三種不同的技術路線,全都沒能成功。。。
攝像頭是手機上最寶藏的一個模塊嗎?-28.jpg (88.53 KB, 下載次數(shù): 7)
下載附件
2023-2-19 15:11 上傳
友聞
就在這時,那支“利劍”橫空出世。
這就是谷歌發(fā)表在機器視覺頂級會議 ECCV 上的一種算法:NeRF。
看到這,可能有的淺友心中一驚:頂級會議的學術研究,估計完全看不懂吧。。。放心,后面我會用特別簡單的例子來給你說明白。
NeRF 的核心奧義就是一句話:原本需要“手繪”的3D建模,用“拍照”的方式來實現(xiàn)。
NeRF 建模就像這樣???
攝像頭是手機上最寶藏的一個模塊嗎?-29.jpg (52.69 KB, 下載次數(shù): 6)
下載附件
2023-2-19 15:11 上傳
當然,建模的話,用一張照片肯定不夠,得從不同角度多拍幾張(或是繞著主體拍一段視頻)——只要角度足夠豐富,就能靠“想象力”把平面上的“像素”還原成空間里的“體素”。
這個想象的過程,靠的當然不是人腦,而是人工智能。
NeRF 有牛呢?它被技術宅們形容為:人工智能對圖形渲染的一次“侵略”。
還是用實力說話吧。你看,給我?guī)讖埞雀杞志暗恼掌?,就能還你一個3D世界的舊金山。。。
攝像頭是手機上最寶藏的一個模塊嗎?-30.jpg (36.27 KB, 下載次數(shù): 5)
下載附件
2023-2-19 15:11 上傳
連一座城市都能還原出來,還原一個椅子和柜子,還不是小菜一碟么?淘寶商家自己繞著椅子拍一段視頻,就能還原出椅子的3D模型,這簡直是生產(chǎn)力的史詩級飛躍啊。。。
想到這里,友聞激動萬分。
但很快,問題出現(xiàn)了:
NeRF的論文只是理論上可行,但真按照論文的方法做出來一個模型,要消耗大量計算力,渲染一幀就要20多秒;
有一種叫做 FastNeRF 的改良技術可以解決這個問題,但做出來的模型大小超過1G,完全沒辦法大規(guī)模實戰(zhàn)。。。
但作為算法界的老炮,他是不會輕易認輸?shù)摹?br />
一個三維模型,只有表面這一層體素是最有意義的,至于物體的內(nèi)部和外部的體素,其實并不包含重要信息。
舉個例子:西瓜之所以看上去是西瓜,不是因為“西瓜瓤”,而是因為“西瓜皮”。你看不到西瓜內(nèi)部,并不影響你判斷它是個西瓜。
所以,在3D建模過程中,內(nèi)部體素就可以大幅刪減。
攝像頭是手機上最寶藏的一個模塊嗎?-31.jpg (49.95 KB, 下載次數(shù): 6)
下載附件
2023-2-19 15:11 上傳
當然,舉西瓜的例子只是為了說明模型精簡的思路。整個2021年春天,團隊都在研究一件事情,怎么像修剪樹木一樣,既不影響模型表達效果,又能把 NeRF 算法的計算量簡化到最小。
兩個月后,他們成功地把模型的大小從1G壓縮到了70M,計算效率也比論文中提升了10000倍。
技術宅們趕緊找來一堆桌椅板凳,準備自己用手機拍的視頻渲染一個模型。
新問題很快出現(xiàn)了:這套系統(tǒng)要求拍攝者必須是人肉三腳架、人肉穩(wěn)定儀。稍微手抖一下,人工智能就會“想象不出來”,換句話說,就是建模失敗。。。
即便建模成功,也有可能出現(xiàn)一個詭異的情況,那就是:從某個刁鉆的角度看,3D物體會出現(xiàn)缺損。。。
就像這樣???
攝像頭是手機上最寶藏的一個模塊嗎?-32.jpg (12.95 KB, 下載次數(shù): 6)
下載附件
2023-2-19 15:11 上傳
這是為啥呢?
說到這,看來我還得科普一下 NeRF 進行“想象”時候的基本原理。
首先,系統(tǒng)會射出無數(shù)根“光線”穿過物體;
攝像頭是手機上最寶藏的一個模塊嗎?-33.jpg (20.01 KB, 下載次數(shù): 7)
下載附件
2023-2-19 15:11 上傳
然后,通過不同光線上同一個點的坐標,反推計算,就能還原出3D模型中體素的準確位置。
攝像頭是手機上最寶藏的一個模塊嗎?-34.jpg (16.34 KB, 下載次數(shù): 6)
下載附件
2023-2-19 15:11 上傳
在 NeRF 原版的設計中,從一個點射出的光線都是平行的,就像電影《英雄》里,秦國士兵射出的箭那樣。結果,就會造成前文所說的“刁鉆角度”下模型缺損的問題。
就像這樣???
攝像頭是手機上最寶藏的一個模塊嗎?-35.jpg (40.82 KB, 下載次數(shù): 6)
下載附件
2023-2-19 15:11 上傳
友聞他們眉頭一皺,計上心來,做了一個小改動,把平行的箭改成了“亂箭”——讓每一條光線隨機選擇角度。這樣,在完全沒有增加計算量的前提下,卻一下子解決了建模質(zhì)量的問題。
就像這樣???
攝像頭是手機上最寶藏的一個模塊嗎?-36.jpg (112.51 KB, 下載次數(shù): 6)
下載附件
2023-2-19 15:11 上傳
當然,類似這樣的改進,他們還做了好多,就不一一詳解了。這些改進綜合起來,就大大提高了建模的成功率。
就像這樣???
攝像頭是手機上最寶藏的一個模塊嗎?-37.jpg (12.71 KB, 下載次數(shù): 7)
下載附件
2023-2-19 15:11 上傳
到了2021年10月,他們已經(jīng)能做到:一個普通人,用普通手機,學習拍攝10次就能學會建模。
這時,友聞他們才覺得時機成熟了。
他們給這套系統(tǒng)起名叫做“Object Drawer”,在淘寶內(nèi)部正式發(fā)布。
說到這,這個故事就和我們今天的主題聯(lián)系起來了:因為友聞他們做的,恰恰就是尋找“體素時代”的那一把鑰匙——“降低成本”。
攝像頭是手機上最寶藏的一個模塊嗎?-38.jpg (32.31 KB, 下載次數(shù): 5)
下載附件
2023-2-19 15:11 上傳
你看,視頻抖成這樣也沒問題。
說到這我還得提醒你注意:要想真正進入“體素時代”,降低成本絕不能靠粗制濫造的“五毛特效”,華麗逼真的模型是首要前提。
這不,“Object Drawer” 剛剛發(fā)布,就有一些商家申請內(nèi)測,但是他們用過之后,給出了“吐槽”:
“形狀嘛倒是還原得還可以,但是表面紋理為啥有點模糊啊。。?!?br />
友聞有點撓頭:“紋理”二字,可擊中了人工智能的軟肋。
因為人工智能的運算過程的本質(zhì)是概率推理,這必然會造成相鄰體素的參數(shù)有一定的相似性。換句話說,模糊就是人工智能甩不掉的內(nèi)在缺陷。。。
但眼看萬里長征已經(jīng)走了一大半,不能功敗垂成。友聞他們只好研究了另一種方案,把傳統(tǒng)算法生成的紋理疊加在 NeRF 的模型之上。這樣一來,在計算成本不提升的前提下,一下子就讓表面紋理從“模棱兩可”變成了“高清畫質(zhì)”。
攝像頭是手機上最寶藏的一個模塊嗎?-39.jpg (274.22 KB, 下載次數(shù): 6)
下載附件
2023-2-19 15:11 上傳
攝像頭是手機上最寶藏的一個模塊嗎?-40.jpg (23.15 KB, 下載次數(shù): 6)
下載附件
2023-2-19 15:11 上傳
至此,“Object Drawer” 被封裝成了一個非常好用的“攝像頭建模工具”。
雖然在友聞他們看來,Object Drawer 還有很大的進步空間,但不可否認,一個虛擬世界的“模型生產(chǎn)線”已經(jīng)雛形初現(xiàn)!
注意,3D模型生產(chǎn)線和實物生產(chǎn)線有所不同:
一個以原子為基礎的“物理商品”會隨著時間損壞、變質(zhì);但以代碼為基礎的“3D模型”一旦被制作出來,就永遠光鮮如初。
這些模型會成為賽博世界里的“基石”,永遠堅硬,而且不斷堆壘。
你有沒有發(fā)現(xiàn),這個過程很像淘寶過去的發(fā)展歷程。無數(shù)商家們不斷把自己的商品拍照上傳,這些數(shù)以億計的照片積累起來,就成為蘊含數(shù)據(jù)價值的金礦——可以通過人工智能學習服務商家,也可以用于未來虛擬空間的設計和搭建。
攝像頭是手機上最寶藏的一個模塊嗎?-41.jpg (7.79 KB, 下載次數(shù): 5)
下載附件
2023-2-19 15:11 上傳
從這個角度理解,3D模型的價值,比圖片的價值只多不少。
當然,這些設想都是后話。眼下,在這些模型積累的過程中,它們能發(fā)揮什么價值呢?
起碼有一條路,已經(jīng)能走通了:一群技術大牛,正在把這些3D模型塞進主播們的帶貨直播間,把“普通直播間”升級成“3D直播間”。
(五)3D直播間
經(jīng)??粗辈ベ徫锏臏\友可能知道,現(xiàn)在的直播已經(jīng)非常“卷”了,主播們光是在鏡頭前耍嘴皮子已經(jīng)遠遠不夠了。
他們得搞些大場面。
比如李佳琦,他的直播間就會在大促的時候,租下一個巨大的演播室,然后聘請晚會級的燈光、舞美團隊。幾百號人共同協(xié)作,才能完成一場直播狂歡。
攝像頭是手機上最寶藏的一個模塊嗎?-42.jpg (130.58 KB, 下載次數(shù): 6)
下載附件
2023-2-19 15:11 上傳
這是李佳琦日常直播,也需要40-60人的團隊。
但講真,這樣的大場面確實費錢,沒個幾百萬是搞不下來的,不是頭部主播根本不敢這樣玩。
在長孫泰眼里,這樣的實景直播好是好。。。但也。。。不是很有必要。。。
因為他和團隊可以用一整套3D技術,實現(xiàn)虛擬場景直播——人只要站在綠幕前,就可以被傳送到一個盛大的舞臺中央。
這個舞臺可以在深山老林,也可以在古堡花園,可以漫天飛著鯨魚,也可以建在月球的環(huán)形山里,總之,壓根不用受物理定律的限制。。。
攝像頭是手機上最寶藏的一個模塊嗎?-43.jpg (19.78 KB, 下載次數(shù): 7)
下載附件
2023-2-19 15:11 上傳
這不,2021年的“618 大促”,小米在天貓進行了一場盛大的帶貨直播。
他們使用的技術就是“3D直播間”。
注意,這些舞臺元素不是隨便“Ctrl+V”過來的妖艷賤貨,而是專門為這場直播從頭設計的。但即便是專門團隊制作了整套舞臺3D形象,成本也只是幾萬元量級,比搭建實景舞臺便宜得多。
攝像頭是手機上最寶藏的一個模塊嗎?-44.jpg (54.69 KB, 下載次數(shù): 5)
下載附件
2023-2-19 15:11 上傳
這是小米的直播間
長孫泰伸出三個指頭,給我科普:“凡是賣貨的場景,都分為三個要素:人、貨、場。”
所謂人,就是主播,用綠幕摳圖的方法來捕捉影像。(當然也可以是數(shù)字人,這里篇幅有限不討論了。)
所謂貨,就是要賣的東西,它可以是主播手上拿著實物,也可以以“3D模型”的方式出現(xiàn)在主播身邊的“虛空”中。
所謂場,就是舞臺。
對于“3D直播間”來說,場,也就是舞臺是最復雜的。
之所以復雜,還是因為要求高。由于直播效果是要和專業(yè)的舞臺相對標的,所以這些背景模型沒辦法做到像友聞他們用 Object Drawer 掃描出來的模型那么小。
這就造成兩個結果:
1、舞臺目前還需要專業(yè)團隊來制作;
2、要想把這個舞臺運行起來,需要一個配置非常好的電腦。(手機暫時不行)
退回到2021年夏天,如果你想搞一個3D直播,需要有一個小團隊去到你家輔助你:
一部分人負責支綠幕、打光;一部分人操作電腦,在旁邊把人物影像和虛擬背景合成起來。
攝像頭是手機上最寶藏的一個模塊嗎?-45.jpg (80.9 KB, 下載次數(shù): 7)
下載附件
2023-2-19 15:11 上傳
估計你也感受到了,這樣的操作臨時搞一兩次還可以,但好像不能作為標準方法大量推廣。
原因就是——這樣的成本太高。
這么高昂的成本,是無法帶領廣大主播進入“體素時代”的。
于是,整個2021年下半年,長孫泰和團隊就在嘗試把這一整套系統(tǒng)搬到云端。
他們要達到的目標就是:
1、主播只需要像平常一樣直播,可以有綠幕也可以沒有綠幕,打光更好不打光也行,系統(tǒng)都能自動把他們的人像摳出來。
2、3D舞臺和3D商品的計算全部在云端運行。主播的人像傳到云端,和背景疊加之后,直接傳輸?shù)角f剁手黨的手機上。
這樣一來,不用專人去現(xiàn)場輔助直播,成本直接大幅降低——無論是大主播還是小主播,就都能方便地搞出自己的“3D直播間”。
攝像頭是手機上最寶藏的一個模塊嗎?-46.jpg (128.23 KB, 下載次數(shù): 6)
下載附件
2023-2-19 15:11 上傳
這是云上XR直播的全流程
長孫泰提醒我:“虛擬商品”這樣的資產(chǎn)可以積累,“虛擬舞臺”這樣的資產(chǎn)也是可以積累的。
不妨拿樂高積木打比方:
樂高積木生產(chǎn)的過程固然比較復雜,需要在工廠里實現(xiàn);
但是一旦生產(chǎn)出來,再用這些積木拼插出無數(shù)有趣的場景,就變得簡單了,普通人也能玩得轉。
主播可以買來“積木”自己拼搭,這就是它私有的直播間(不與別人分享);主播也可以選擇在淘寶上直接使用公共3D直播間,在上面做個性化微調(diào)。
這樣,使用“公共3D直播間”的主播越多,平攤下來,制作成本就越低。
假如制作一個精美的舞臺用了5萬塊,結果有5萬個主播都選擇共用,那就相當于每人眾籌1塊錢。
攝像頭是手機上最寶藏的一個模塊嗎?-47.jpg (111.86 KB, 下載次數(shù): 6)
下載附件
2023-2-19 15:11 上傳
長孫泰
說到這兒,我們不妨回到歷史的上空,俯視現(xiàn)在這個時間點已有的一切:
我們正在擁有價格低廉的“3D模型”,也有了價格低廉的“3D房間”和“3D直播間”,它們共同構成了“體素世界”的雛形。
接下來,終于到了靈魂拷問:
普通人(也就是你和我)目前只能隔著手機屏幕*觀察*和*控制*這個世界,但不能方便地“置身其中”。
之所以這樣,是因為我們還缺乏一個成本低廉,表現(xiàn)穩(wěn)定的“任意門”,這個任意門,就是“XR 眼鏡”。
當然,無數(shù)技術人曾經(jīng)和正在嘗試造出這扇門,比如“先烈” Google Glass,當紅小生 Meta 的 VR 眼鏡 Oculus,微軟的 VR眼鏡 Hololens,國產(chǎn) VR 眼鏡 Pico,還有萬眾期待的“蘋果眼鏡”。(哦還有羅永浩老師即將推出的AR眼鏡)
看架勢,這將是一個史詩級的科技賽道。
攝像頭是手機上最寶藏的一個模塊嗎?-48.jpg (92.9 KB, 下載次數(shù): 6)
下載附件
2023-2-19 15:11 上傳
從左至右:Hololens、Oculus、Google Glass
但問題在于:在殺手級的“XR 眼鏡”普及之前,寫軟件代碼的技術宅們不能閑著。他們必須提前“搶跑”,一旦硬件具備,軟件要馬上能安裝進去。
豪贊,就是搶跑的大牛中的一位。
(六)兩個世界間的“掛鉤”
很多人應該都用過淘寶里的“拍立淘”功能。
你對著一個東西拍張照片,立刻就能搜索到相關商品。
攝像頭是手機上最寶藏的一個模塊嗎?-49.jpg (167.58 KB, 下載次數(shù): 6)
下載附件
2023-2-19 15:11 上傳
2019年的拍立淘
在普通人眼里,這只是一個輔助購物的小特性,可是在豪贊眼里,這卻是通往未來的絕佳入口。
因為“拍立淘”這個場景,把“現(xiàn)實世界”和“體素世界”聯(lián)系起來了。(注意,我用了綠色字體,說明這是一個合適的場景。)
為什么這么說呢?最近,豪贊他們?yōu)榕牧⑻陨壛艘粋€“XR看世界”的新功能,從中可以看出端倪。
過去你需要拍一張照片上傳,它才啟動搜索;現(xiàn)在不用了,你只要拿攝像頭對著世界,系統(tǒng)就實時工作,幫你識別視野里一切物品,然后跳轉到商品詳情。(這個光說你感受不強,你可以現(xiàn)在就打開拍立淘感受一下。)
攝像頭是手機上最寶藏的一個模塊嗎?-50.jpg (22.74 KB, 下載次數(shù): 6)
下載附件
2023-2-19 15:11 上傳
“XR看世界”,從本質(zhì)上來講,就相當于做出了很多包含信息的“3D泡泡”,追蹤在實體物品之上。
你想想看,如果這時把“手機”換成“XR 眼鏡”,會發(fā)生什么呢?
沒錯,你眼前世界的一切物體,都可以被附加上“3D泡泡”:“
路邊不認識的花,上面有泡泡會顯示它的名稱、習性。
路邊不認識的車,上面有泡泡會顯示它的品牌、價格。
路人穿的衣服很好看, 系統(tǒng)也能在淘寶商品庫里給你找出來一模一樣的。
攝像頭是手機上最寶藏的一個模塊嗎?-51.jpg (47.22 KB, 下載次數(shù): 7)
下載附件
2023-2-19 15:11 上傳
怎么樣,瞬間有了科幻電影里的感覺了吧?
這一整套技術,有一個名字——XR 互動技術。
豪贊就是這方面的專家。
人們通過拍立淘找到了想要的商品,就會購買。在我看來,這些購買就是對我們“XR 互動技術”的認可,是“點贊”。將來,大家不僅可以通過 AR 買東西,還可以通過 AR 看世界,我們就會得到更多的贊,所以我的花名就是“豪贊”!
豪贊老師有理有據(jù)給我解釋。
攝像頭是手機上最寶藏的一個模塊嗎?-52.jpg (126 KB, 下載次數(shù): 6)
下載附件
2023-2-19 15:11 上傳
豪贊
你有沒有發(fā)現(xiàn),XR互動技術就像“物理世界”和“體素世界”的掛鉤,把兩個原本沒有關系的世界給聯(lián)系起來了。
不過,要獲得“豪贊”并不是那么容易的事情,因為這個“掛鉤”背后的技術還是挺復雜的。
我們來拆解一下步驟:
1、要把攝像頭采集的視頻切分為一幀一幀的靜態(tài)圖片;
2、用人工智能找到靜態(tài)圖片里究竟包含哪些物體;
3、去云端的數(shù)據(jù)庫里找到和這些物體相關的信息,然后顯示在物體旁邊的“泡泡”上;
4、運用影像追蹤技術,識別出相鄰兩幀畫面中“同一個物體”,就可以讓“泡泡”在動態(tài)視頻中跟隨同一個主體移動了。
這一套流程跑下來,計算量可小不了。
實際上,這么大的計算量,靠手機或AR眼鏡中的小芯片來搞定,確實是力不從心。。。
所以,豪贊他們處理這個問題的核心思路就是:在整個流程中適當?shù)奈恢每车舨槐匾挠嬎氵壿嫛?br />
比如,我們發(fā)現(xiàn)人們經(jīng)常會把A物體放在大腿上。畫面實際上出現(xiàn)了兩個東西:“A物體”和“大腿”。但人工智能會老老實實進行一系列的計算,然后給出答案:畫面里有“A物體”和“大腿”。
但你有沒有發(fā)現(xiàn),整個流程里,識別大腿的計算完全是不需要的?
豪贊解釋。
所以,更好的做法是,畫面里對“桌面、大腿、手、墻壁”之類的識別動作根本不應該被拉起,這個計算流越早被“壓制”掉,就能越省計算力。
攝像頭是手機上最寶藏的一個模塊嗎?-53.jpg (129.41 KB, 下載次數(shù): 6)
下載附件
2023-2-19 15:11 上傳
但是,靠技術宅們手動定義哪些東西不應該被識別,這既不準確,效率也不高。
這里涉及到人工智能改進的一個通用方法,就是:通過用戶對每次搜索的點擊行為,來修正系統(tǒng)的行為。
比如,最開始系統(tǒng)經(jīng)常都能搜出“大腿”,但絕大多數(shù)用戶不會點擊“大腿”,更不會購買“大腿”(也就是不給“大腿”點贊),這個動作就被稱為“負樣本”。
在人們使用“XR 看世界”的功能時,“負樣本”會源源不斷傳送給人工智能用來學習。
很快,系統(tǒng)就知道大腿是不用識別的,從而越來越精簡,計算量不斷變小。
這就是系統(tǒng)“剪枝”的過程。
攝像頭是手機上最寶藏的一個模塊嗎?-54.jpg (38.25 KB, 下載次數(shù): 7)
下載附件
2023-2-19 15:11 上傳
不過,僅僅靠“剪枝”,剩下的“主干”還是太大,沒辦法把計算量控制在設備的能力范圍。
于是,豪贊他們必須做得更多:能不能在不影響AI模型效果的前提下,把“模型的主干”變小呢?
目測,這種既讓馬兒跑又不讓馬吃草的操作還真能實現(xiàn)。這里給你隆重介紹一個逆天的“推理引擎”——MNN。
啥是“推理引擎”呢?
我們不妨拿汽車引擎來類比。
同樣是98號汽油,用A引擎就能跑到200km每小時,且油耗很低;用B引擎只能跑到100km每小時,且油耗很高。
這里的汽油就是前文所說的“AI模型”,用同樣的模型,卻能跑得更快,更省計算力,就是“推理引擎”的職責了。
攝像頭是手機上最寶藏的一個模塊嗎?-55.jpg (82.81 KB, 下載次數(shù): 6)
下載附件
2023-2-19 15:11 上傳
“用 MNN 引擎,不損失精度的情況下,至少可以把模型減小一半。如果把精度犧牲一點,還可以小得多?!焙蕾澱f。
這么神奇的嘛?我趕緊給 MNN 的負責人呂行打電話,請他幫我科普其中的黑科技。
攝像頭是手機上最寶藏的一個模塊嗎?-56.jpg (117.71 KB, 下載次數(shù): 7)
下載附件
2023-2-19 15:11 上傳
呂行
呂行驕傲地告訴我,MNN 的絕招簡單來說可以分為三層:
1、向上看,市面上存在很多人工智能訓練框架,他們訓練出來的模型各不相同,但是 MNN 可以把這些模型都統(tǒng)一成 MNN 格式。
2、向下看,市面上存在很多手機芯片類型,MNN 為不同的芯片類型搞出了最適合的算子運行模式。提前預制好。
3、在中間,人工智能模型運行時,程序會自動探測自己跑在哪一類芯片上,然后就切換到最合適的預制模式來運行。
攝像頭是手機上最寶藏的一個模塊嗎?-57.jpg (95.56 KB, 下載次數(shù): 5)
下載附件
2023-2-19 15:11 上傳
這張圖詳細解釋了 MNN 面臨的挑戰(zhàn),點擊可以放大。
聽完他的介紹,我感覺 MNN 有點像一個自動駕駛汽車:走平路就用高檔位,遇到上坡就自動切換成低檔位,路滑就不急踩剎車。
和發(fā)動機一樣,推理引擎背后的技術細節(jié)是極其精細的,精細到 MNN 團隊已經(jīng)有很多世界級的論文產(chǎn)出,被頂級會議收錄。限于篇幅,今天我們沒辦法展開了,后面我會找機會專門寫文章討論。
呂行自豪地告訴我,目前阿里巴巴已經(jīng)有30多個 App 都內(nèi)置了 MNN 的模塊。
目前,MNN加持的輕量級人工智能可以進行語音識別、視頻內(nèi)容理解,當然也幫助把“XR 看世界”這把鉤子做得更小巧堅固;未來,如果出現(xiàn)殺手級的“XR 眼鏡”,MNN 肯定也會第一時間適配,把更多普通人拉進體素世界。
攝像頭是手機上最寶藏的一個模塊嗎?-58.jpg (165 KB, 下載次數(shù): 6)
下載附件
2023-2-19 15:11 上傳
(七)數(shù)字資產(chǎn)和“淘寶叛軍”
因為正處疫情期間,所以和這些淘寶技術大牛的聊天都是在線上進行的。
掛斷和大牛們的視頻電話,從“體素世界”的想象中抽離回來,我看看窗外熟悉到有些膩味的風景,總有一種肉身沉重的感覺。
估計很多淺友也開始質(zhì)疑:
你說得這么熱鬧,但我們現(xiàn)在不還活在無聊的現(xiàn)實中么?體素時代到底什么時候來呢?
我必須承認,客觀上來說,沒有人能精確預言一個時代的到來。
而且,對于一項技術的過度關注,反而會消磨大家對它的善意,2016年的”VR熱潮”和如今如出一轍的“元宇宙騙局”已經(jīng)證明了這一點。
所以,我只想小心翼翼地客觀呈現(xiàn)這些大牛們的努力:
他們只是從自己熟悉的家園出發(fā),用各自的方式開始了遠征,為體素時代悄悄準備“磚石”——一旦未來降臨,我們手中不至于赤手空拳。
攝像頭是手機上最寶藏的一個模塊嗎?-59.jpg (40.75 KB, 下載次數(shù): 6)
下載附件
2023-2-19 15:11 上傳
承越告訴我,他們的“3D說明書”正在努力從“小家電”拓展出去,很快,大家就能看到冰箱、洗衣機這樣大家電的3D說明書。他們也在嘗試做出3D世界的“穿鞋帶說明書”,甚至還有美妝產(chǎn)品的說明書——讓大家在虛擬世界就能體會到各種化妝品的使用順序和使用效果。
“這些嘗試未必都能成功,但值得嘗試。”他說。
長孫泰告訴我,他希望不久的將來,每個大小商家,甚至夫妻店都能擁有自己的3D直播間。
商家可以像裝修房子那樣,不斷修改、豐富云上直播間的樣子,還可以添加新的3D擺件。不僅如此,還能根據(jù)直播的主題在各個直播間之間切換,就像一個人在全國每個城市都有別墅,想住哪套住哪套,土豪得不要不要的。
攝像頭是手機上最寶藏的一個模塊嗎?-60.jpg (204.83 KB, 下載次數(shù): 6)
下載附件
2023-2-19 15:11 上傳
就像這樣,每個商家都可以有好多不同主題的直播間。
友聞告訴我,他們還在奮力改進算法,讓 Object Drawer 繪制出來的 3D模型平均大小從20m縮小到5m。
未來,商家上架一個商品,就像現(xiàn)在拍一張照片那么簡單。每一個淘寶上的商品都可以有配套的3D模型。
他說。
這樣一來,我們買一個椅子,就同時在虛擬世界得到一個“數(shù)字椅子”,買一個水壺,就在虛擬世界得到一個“數(shù)字水壺”。
于是,我們裝點自己家的時候,也能裝點自己數(shù)字世界的另一個家:
我們在真實的家里,得到的是真實生活品質(zhì)的提升,而在虛擬房間里,得到的是突破物理定律的自由想象——我們可以讓水杯懸在半空,我們可以讓屋頂閃耀璀璨銀河。
我們可以邀請朋友到真實的家,也可以邀請朋友的數(shù)字分身到我們的數(shù)字莊園。
攝像頭是手機上最寶藏的一個模塊嗎?-61.jpg (27.26 KB, 下載次數(shù): 6)
下載附件
2023-2-19 15:11 上傳
數(shù)字藝術家 Krista Kim 做了一個 Mars House(火星屋)。他把一片豪宅建設在了荒涼的火星上,使之充滿了對于物理定律的挑釁。
所以,我愿意把這些淘寶大牛稱為“叛軍”。他們反叛的不是任何人,而是像素時代的種種限制,種種無趣。他們相信,人們的3D數(shù)字世界里不應一片荒蕪,而創(chuàng)造必須始于今天,始于腳下。
也許未來的某一天,我們回望那個像素時代的黃昏,也許會對當年的先行者們致以微笑。
因為他們曾堅信,對未來最大的慷慨,就是把一切獻給現(xiàn)在。
攝像頭是手機上最寶藏的一個模塊嗎?-62.jpg (117.04 KB, 下載次數(shù): 7)
下載附件
2023-2-19 15:11 上傳
參考文章:
《一種降維打擊的可視化方案》
https://www.bilibili.com/video/BV1Sf4y147J9?share_source=copy_web
夸克“兇猛”:一場手機鏡頭背后的狂野冒險
文|史中
??
李逍遙出生的村子叫什么你知道嗎?
我知道,叫盛漁村,地處杭州余杭縣,位置偏僻,但風景秀麗。。。
我為啥記得這么清楚呢?
因為10歲那年我第一次玩《仙劍奇?zhèn)b傳》的時候,劇情剛剛展開,看著熱情的村民,聽著溫情的 BGM,我突然有奇怪的想法:為啥我李逍遙不能一輩子慫在家鄉(xiāng)耍木劍采野果,非得去外面被妖怪毒打呢?
但是轉念一想,不遇到妖怪,也不會遇到趙靈兒。
想到這里,DNA 動了,明知山有虎偏向釜山行,我就這樣走出了新手村。
好吧,咱們未必玩過一樣的游戲,但咱們都過著同樣操蛋的人生。你我都有(不得不)從新手村出發(fā)的那一天,面對天書一樣的試卷時,面對老板“今晚就要”的死線時,都會幻想:如果天上能掉下來一把神刀,一刀999級,該有多好。。。
今天,中哥就給你講一個“神刀”的故事。
攝像頭是手機上最寶藏的一個模塊嗎?-63.jpg (32.86 KB, 下載次數(shù): 6)
下載附件
2023-2-19 15:11 上傳
(一)“戰(zhàn)五渣”和掃描王
“放假前剛發(fā)的卷子,我家小孩就找不到了!我還得在家長群里求著同學媽媽把試卷拍給我,打印出來讓孩子做。但人家孩子已經(jīng)寫了答案,我只能用紙條擋住答案去復印。。。”
這是一個兩年前發(fā)在媽媽幫論壇上的帖子。
如此不能打的劇情,卻引來了不合時宜的共鳴,上百個家長回復說:啊!我以為只有我家孩子是這樣。。。
看來,身邊潛伏的渣渣不止一個啊。
吃瓜群眾中潛伏著一個人,戴著眼鏡,自己就接近學生模樣,按道理都不應該知道這世界上有媽媽幫這樣“戾氣深重”的網(wǎng)站。
這個人就是尹毅彬。
攝像頭是手機上最寶藏的一個模塊嗎?-64.jpg (90.92 KB, 下載次數(shù): 6)
下載附件
2023-2-19 15:11 上傳
尹毅彬
尹毅彬是夸克App的產(chǎn)品經(jīng)理,之所以要逛家長論壇,是因為他負責的正是當時大火的“學習版塊”。
他同時也是個暖男?!霸趺茨茏寢寢寕兪苓@樣的苦呢?”于是趕緊把這個發(fā)現(xiàn)講給伙伴。
一個月后,夸克App里添加了一個小功能——試卷去手寫——拿一張卷子來,能自動把里面的手寫字去掉;不僅如此,還能把卷子角度自動轉正,把紙變白,把字變清晰,打印出來比原版的還原版,隔壁學霸都饞哭了。。。
就是這個效果???
攝像頭是手機上最寶藏的一個模塊嗎?-65.jpg (436.59 KB, 下載次數(shù): 5)
下載附件
2023-2-19 15:11 上傳
別看就是這么一個不起眼的功能,受歡迎程度卻難以言表,后臺調(diào)用量像火箭直入云霄。
以防有的淺友不熟悉夸克,這里中哥強勢插入一下,多介紹幾句背景姿勢:
很多人覺得夸克是個搜索 App,但是在年輕用戶心里,搜索只是夸克“功能大餐”中的一道菜,他們還能用夸克看小說、看電影、拍圖識萬物、文檔翻譯、簡歷生成、自拍證件照、PDF轉Word、截長圖、轉gif、掛號買藥、學菜譜查快遞。。。
我覺得,夸克的夢想是成為大家手機里的“瑞士軍刀”——沒車沒房沒女票這種大事解決不了,但遇到蹩腳的小困難,掏出來一準兒能搞定。
給你們看一下夸克工具的列表???
攝像頭是手機上最寶藏的一個模塊嗎?-66.jpg (31.12 KB, 下載次數(shù): 5)
下載附件
2023-2-19 15:11 上傳
為了達成這個目標,不只是尹毅彬,夸克團隊每個人都患上了“需求搜集癖”。。。
他們就像八爪魚:產(chǎn)品經(jīng)理做調(diào)研,技術老師傅看數(shù)據(jù),運營小姐姐接客訴,反正有各種渠道和用戶溝通。用戶想要啥,分分鐘就能傳遞到夸克團隊,沒準新功能幾個星期就做出來了,有一種“被寵溺”的感覺。
講真,在今天的世界,能夠和用戶混成這種好兄弟(好姐妹)的互聯(lián)網(wǎng)產(chǎn)品都已經(jīng)不多了呀。
不過這也好理解,因為夸克團隊和他們的用戶一樣年輕,幾乎一水的90后。其中最小的一位生于澳門回歸的1999年。畢竟中國人不騙中國人,年輕人不坑年輕人嘛。
好,認識了這群頭發(fā)尚且濃密的年輕人,我們回到主線劇情。
搞出“試卷去手寫”,無數(shù)小朋友可以罵罵咧咧開開心心去寫作業(yè)了,但這只是故事的《序章》。
夸克這群年輕人像胡八一那樣提鼻子一聞,忽然感覺自己站在一座“尚未完全被開發(fā)”的寶藏大門前,這座寶藏就叫——掃描。
之所以說尚未完全開發(fā),是因為掃描這座寶藏早已被人發(fā)現(xiàn),市面上也早有一些掃描產(chǎn)品。
只是夸克這群人覺得前人挖掘得不細心,或者說勘探技術不到位,就拿“試卷去手寫”這樣的具體任務來說,在他們之前就沒人做得這么精細嘛。。。
攝像頭是手機上最寶藏的一個模塊嗎?-67.jpg (15.44 KB, 下載次數(shù): 6)
下載附件
2023-2-19 15:11 上傳
于是,一場內(nèi)部討論展開:如果做一個市面上最好的把“紙質(zhì)文件”掃描成“數(shù)字文檔”的掃描工具,誰贊成?誰反對?
團隊那位99年的同學趕緊舉手:
我上大學那時候,哦,也就是去年,就特別想要一個這樣的工具。因為老師講課的PPT翻得太快,我只能用相機一張張拍下來,再用 iPhone 的備忘錄功能整理起來。雖然四舍五入能用,但是像我這么社恐的人,坐在教室最邊上,拍出來的照片都是梯形。。。
話音未落,另一個同學插話:
我表哥在投資公司工作,我記得他吐槽,說每天都得把各種紙質(zhì)文件、單據(jù)神馬的掃描歸檔,掃描儀難用的一比。
恰在此時,探馬回報,在北京、廣州、秦皇島等等城市的用戶調(diào)研里,很多夸克的主力用戶——老師和學生——也都吐了這個槽:學知識最好是舉一反三,得把錯題抄下來反復練嘛。但除非愛好書法,誰能耐下心來手抄那么多錯題呢?
而且,人類都已經(jīng)進入賽博朋克紀元了,把這么多時間用來物理抄題,也太 old school 了吧?能有個順手且強大的手機掃描工具多好??!
正所謂,工欲善其事必先利其器。你讓哈利波特去削伏地魔,不得先給他個掃帚么?你讓小智干翻全世界的寶可夢,不得先給他個精靈球嗎?你讓你家小孩考清華,不得先給他個“掃描王”么?
夸克掃描王產(chǎn)品負責人夏雅瞳小姐姐一拍桌子:決定了!咱們就幫大伙兒把“掃描王”做得更好用!
攝像頭是手機上最寶藏的一個模塊嗎?-68.jpg (91.75 KB, 下載次數(shù): 5)
下載附件
2023-2-19 15:11 上傳
小智,你捫心自問,如果把精靈球改成三室一廳總統(tǒng)套房,皮卡丘能不愿意進來么?
(二)高清無碼大圖,get?
說到掃描,咱們小時候見的掃描都是那樣的:把紙質(zhì)文件按在一個掃描儀上,然后“呲——”,電腦上就顯示出了一模一樣的圖片。
那個操作叫“光學掃描”,實際上,那已經(jīng)是老黃歷了。
聽中哥給你科普,現(xiàn)在的掃描比女生化妝還厲害:
第一步、拍圖片
用手機給文件拍一張素顏照,App會自動幫你裁剪,擺正角度,去掉無用信息,相當于打了個遮瑕粉底,然后把圖片上傳云端。
攝像頭是手機上最寶藏的一個模塊嗎?-69.jpg (112.47 KB, 下載次數(shù): 6)
下載附件
2023-2-19 15:11 上傳
第二步、修圖片
云端算力充沛,AI 能識別出文件上的瑕疵(例如紙上的臟點、水印、手寫痕跡),把它們都去掉;再識別出有用的文字,把它們加深,變得更清晰。相當于眼線紅唇化個全妝。
攝像頭是手機上最寶藏的一個模塊嗎?-70.jpg (112.55 KB, 下載次數(shù): 7)
下載附件
2023-2-19 15:11 上傳
第三步、導圖片
云端把這張圖片傳回給手機里的 App,App 幫你導出定妝照,也就是掃描結果的圖片。
完美結束,撒花出街。
攝像頭是手機上最寶藏的一個模塊嗎?-71.jpg (120.43 KB, 下載次數(shù): 6)
下載附件
2023-2-19 15:11 上傳
這樣三步下來,比光學掃描的“素面朝天”那簡直高到不知哪里去了。
不過,欲戴王冠必承其重,這個“美顏之旅”比大多數(shù)人想得難多了。
怎么個難法呢?咱們先請上夸克團隊的第一位現(xiàn)身說法的選手,他就是王淮。王淮在夸克App的研發(fā)團隊,負責我們剛才說的“第一步”。
攝像頭是手機上最寶藏的一個模塊嗎?-72.jpg (114.73 KB, 下載次數(shù): 6)
下載附件
2023-2-19 15:11 上傳
王淮
王淮是個“強迫癥”,一幅畫掛歪1度都能看出來那種。但做 App 客戶端恰恰需要這種細致的精神。
剛接到任務,一個不是問題的問題就擋在面前——該用什么拍照方式?
你肯定沒有注意過,攝像頭獲取圖片其實是有兩種方式的:
一種是速度快但畫質(zhì)感人的——就是進入攝像模式,從流動的畫面里截取一幀湊合能看的。
一種是畫質(zhì)好但速度感人的——就是進入拍照模式,老老實實對焦,調(diào)整光圈快門,拍一張照。
攝像頭是手機上最寶藏的一個模塊嗎?-73.jpg (110.69 KB, 下載次數(shù): 6)
下載附件
2023-2-19 15:11 上傳
王淮玩得比較遛的是第一種“視頻截圖”。因為他們之前做的“萬物識別”功能,就在用這種方式。
為啥呢?因為那些圖片是用來做“分類”的——比如你拍了一只狗,即便是模糊的狗,相比于貓,AI 也會覺得它也更像狗——所以不用清楚,拍得快才是王道。
可是掃描就不同了,它的終極目標不是分類,而是清晰呈現(xiàn)這張照片里的每一個細節(jié)。
沒辦法,王淮只能老老實實選擇“拍照模式”。可這樣一來,體驗就不太流暢,他又和一群強迫癥事們做了10086個優(yōu)化。
接下來可以拍照了吧!王淮把自己手機翻過來一看,臥槽?!怎么這么多攝像頭?
第二個問題又迎面撲來——該用哪個攝像頭?
廢什么話?隨便選一個不就行了嗎?
“不行。我們試了一下,長焦鏡頭一般光圈大,拍出來的照片景深小,這樣用戶如果拍攝角度傾斜,就會造成一半清晰,一半虛焦。。。廣角鏡頭一般光圈小,能拍清楚。但如果鏡頭視野太寬,紙張占畫面的比例又比較小,有效像素不夠多。。?!?br />
王淮解釋。
就像這樣???
攝像頭是手機上最寶藏的一個模塊嗎?-74.jpg (103.42 KB, 下載次數(shù): 6)
下載附件
2023-2-19 15:11 上傳
他們最后寫了一套規(guī)則,讓夸克 App 在手機里現(xiàn)場“唐伯虎點秋香”,找出最適合做掃描的那顆攝像頭。
可實戰(zhàn)中到底能不能選準秋香,王淮心里有點嘀咕。。。他又請測試團隊的同學真的用不同型號手機拍了幾千張照片,把每一個機型都調(diào)優(yōu)了一遍才罷休。
這下可以拍照了吧?還不行。。。
夸克的用戶數(shù)以億計,你永遠想象不到大家在拍照片的時候是在九天攬月還是在五洋捉鱉。
比如有的人手抖,拍出的照片就是帕金森模仿秀;有的人心不在焉,拍出的照片就是斜到懷疑人生;有的人是暗夜騎士,拍東西祖?zhèn)鞑婚_燈。
于是第三個問題來了——怎么保證拍照清晰?
王淮他們在拍照界面加了提醒——探測到畫面光線不足,就提示開燈;還加了網(wǎng)格線——眼殘的可以參考網(wǎng)格拍得橫平豎直;還做了一個實時對焦模塊——哪怕用戶冷不丁地按下拍照,也能保證盡量清晰。
攝像頭是手機上最寶藏的一個模塊嗎?-75.jpg (25.18 KB, 下載次數(shù): 7)
下載附件
2023-2-19 15:11 上傳
看到這兒,有老哥可能會問:這都是什么雞毛蒜皮的小事???
其實我是故意選擇這些瑣碎細節(jié)講給你聽的。因為你懂的,面對這些細節(jié)都能如此“強迫癥”的人,是很難在圖像裁剪、圖像壓縮、圖片上傳鏈路這類更嚴肅的事情上偷工減料的。
“咻——”,隨著圖片傳上云端,沉甸甸的接力棒也交到了第二位選手,云端算法工程師黃銳華手上。
攝像頭是手機上最寶藏的一個模塊嗎?-76.jpg (102.63 KB, 下載次數(shù): 5)
下載附件
2023-2-19 15:11 上傳
黃銳華
黃銳華是個技術控老司機。他的駕駛風格是:“我前面不能有車”。
凡是遇到什么技術困難,他不睡覺也得把全世界的解法都找來,然后不允許任何一個解法比自己更好。。。
開發(fā)過程中,看著手機端傳上來的圖片,黃銳華皺皺眉頭:喂,這圖片怎么有好多都是“S身材”????
你想想看,一張紙,如果能夠平平展展讓你拍照,那是燒高香的情況。大多數(shù)情況,咱們打開書拍某一頁,書頁肯定是彎折的,而且越靠近書脊,彎折程度越大,就像霍金的黑洞。。。
黃銳華當時就暴躁了,一張紙這么“性感”,很影響掃描效果的好不好?!
攝像頭是手機上最寶藏的一個模塊嗎?-77.jpg (160.94 KB, 下載次數(shù): 6)
下載附件
2023-2-19 15:11 上傳
接下來的問題就是——怎么把S形書頁給拉直?
其實方法就是借助人工智能,讓 AI 對著彎折的書頁“YY”它平展的時候應該是什么樣。
可問題是,要想讓人工智能學會這個技能,先得給它學習資料——同一張紙彎折時和平展時的“對比數(shù)據(jù)”。這個數(shù)據(jù)還不能只有一兩組,得成千上萬組才行。
黃銳華給我解釋。
雖然但是,從哪去找這么多書頁彎折的數(shù)據(jù)呢?這數(shù)據(jù)又不是可樂,街邊隨便找家店就有賣。。。而且也來不及自己一張張拍啊,等你拍完,等著掃描書頁的大學生都該領退休金了。。。
一個平時喜歡玩游戲的同學若有所思:誒,3A游戲大作不都會用到物理引擎么?
一語點醒夢中人,黃銳華組織大家搞了好幾本書的3D模型,然后用游戲物理引擎對它進行各種“蹂躪”,這不一下子就有了豐富的訓練數(shù)據(jù)嗎?
攝像頭是手機上最寶藏的一個模塊嗎?-78.jpg (154.1 KB, 下載次數(shù): 6)
下載附件
2023-2-19 15:11 上傳
這么一搞,效果拔群。
看著 AI 書頁拉直的效果越來越棒,黃銳華仰天長嘯:果然,不會3D建模的AI工程師不是好司機?。?br />
攝像頭是手機上最寶藏的一個模塊嗎?-79.jpg (176.97 KB, 下載次數(shù): 5)
下載附件
2023-2-19 15:11 上傳
搞完這些,已經(jīng)是2021年春天。
丑媳婦總得見公婆,“夸克掃描王”終于發(fā)布了。
春江水暖鴨先知,夸克新功能鐵桿粉絲先知——說時遲那時快,在夸克的粉絲群里,已經(jīng)有眼尖的人發(fā)現(xiàn)了掃描王。
攝像頭是手機上最寶藏的一個模塊嗎?-80.jpg (79.5 KB, 下載次數(shù): 6)
下載附件
2023-2-19 15:11 上傳
夸克團隊搬好小板凳排排坐,等著夸獎砸來,不過,夸獎沒等來,卻等來了板兒磚。
“欸我這個掃描出來怎么是花的啊?”有粉絲問。
黃銳華一看粉絲發(fā)來的“證據(jù)”,居然是對著電腦屏幕拍的,上面都是摩爾紋。。。
“欸我這個卷子怎么掃描之后還能看出背面的字???”
黃銳華一問,才知道這哥們的卷子太薄,簡直是蕾絲半透款,背面的字毫無壓力地透了過來。。。
“欸我這掃描出來怎么還帶手指頭???”
黃銳華一看,原來這哥們是拿手舉著一本書掃描的,手指頭也拍進去了,AI 以為是書上的插圖呢,給強勢保留了。。。
“這好辦,你告訴他們拍照的時候別用手扶著不就行了?”我提議。
“用戶用手扶,一定有他不得不扶的道理。我們既然要做全世界最好的掃描工具,就不可能讓用戶來適應我們?!秉S銳華一臉慷慨。
本著“做最牛X的掃描工具”的原則,老師傅們繼續(xù)返工:優(yōu)化了人工智能算法,讓它更好地識別出背面透字;還教會了 AI 識別邊緣亂入的手指頭,自動擦除;還研究了去摩爾紋的濾鏡。
攝像頭是手機上最寶藏的一個模塊嗎?-81.jpg (389.2 KB, 下載次數(shù): 5)
下載附件
2023-2-19 15:11 上傳
注意,剛才提到的各種濾鏡是一層層“疊buff”的。
比如,上一層去摩爾紋的輸出結果是下一層去邊緣手指的輸入資料;去手指的輸出結果又是下一層去背面透字的輸入資料。
這很像雜技演員踩著高蹺,頭上頂著水缸,手里扔著12個雞蛋,腰上還轉著5個呼啦圈——但凡中間任何一個環(huán)節(jié)出問題,整個雜技都會垮掉。
做掃描難,就難在了這兒。
攝像頭是手機上最寶藏的一個模塊嗎?-82.jpg (12.5 KB, 下載次數(shù): 6)
下載附件
2023-2-19 15:11 上傳
耿直的夸克用戶是一面明鏡,不滿意會吐槽,滿意會真夸。經(jīng)過了幾次改進,夸克粉絲群里逆風翻盤,變成夸夸群。
尹毅彬現(xiàn)在還記得,有一個用戶專門跑來說:“我從來沒用過這么好的掃描產(chǎn)品,掃出來真白,就跟新買的書一樣!”
不過彼時沾沾自喜的掃描王團隊,就像剛出長安的唐長老,還不知道有一群妖怪正圍著餐巾等著他們呢。
那天,運營小姐姐找到尹毅彬,跟他提到了一個用戶投訴。
那個用戶留言說:“用夸克掃描出來的文件,我沒法用!”
“掃得這么白,怎么沒法用?”尹毅彬一邊嘀咕,一邊決定跟那個投訴用戶直接打個電話。
他恍然大悟,原來這個用戶在掃描一份鑒定報告,在報告的下面,專門鋪了簽發(fā)機構的防偽水印。可是在AI看來,水印這種臟東西不是要去掉的么?一秒鐘擦得干干凈凈,對用戶說:快夸我!
用戶說:我謝謝你??!
無獨有偶,另一個用戶反饋也前后腳進來:他想掃描一個發(fā)票,用于報銷??墒强淇藪呙柰鯍叱鰜淼陌l(fā)票過于白嫩,而且經(jīng)過“清晰度補足”的濾鏡,紅章就會變得暗淡,打眼看上去就像是街角買的假票。。。那哥們都不敢提交報銷了。。。
原來,“一白遮百丑”也不總是真理。
一個巨大的哲學問題擺在夸克掃描王團隊面前:當“真”和“美”坐在蹺蹺板的兩端,到底要怎么選?
就和生活一樣,沒有人永遠需要真實,也沒人永遠需要漂亮。所以我們的結論是,你要去了解用戶在掃描那一刻的真實意圖,才能更準確地服務他。
尹毅彬解釋。
于是,在隨后的升級里,夸克掃描王加入了一道“自動識別邏輯”:判斷這是個單據(jù),就以“真實呈現(xiàn)”為主;判斷這是個文件,就以“黑白分明”為主。
攝像頭是手機上最寶藏的一個模塊嗎?-83.jpg (132.18 KB, 下載次數(shù): 6)
下載附件
2023-2-19 15:11 上傳
這個思考影響深遠。
從這件事以后,夸克團隊就像搞了個高音喇叭放在耳邊,時刻在喊:“你們確定真的了解用戶想干嘛嗎?R U F**KING SURE?!”
“警鐘長鳴”之下,他們有了驚奇的發(fā)現(xiàn)——當用戶掃描的時候,有時并不想“掃描”。
(三)當你掃描的時候,你在“掃描”什么?
“在我們的一生中,遇到愛,遇到性,都不稀罕,稀罕的是遇到了解?!边@是廖一梅在話劇《柔軟》里寫下的臺詞。
這句話恰好完美隱喻了互聯(lián)網(wǎng)產(chǎn)品的難處。
在真實世界里,哪怕你和最要好的朋友對面長談,都無法完全理解Ta的意圖;更別提在賽博世界里,提供服務的系統(tǒng)和用戶相隔萬里,只能通過用戶令人費解的行為碎片來“猜”。
我問你,當一個用戶掃描了電腦屏幕上的一串快遞單號,Ta 想干嘛?
我再問你,當一個用戶沒有調(diào)用攝像頭,而是去相冊里調(diào)取了一張寫著名言警句的圖片進入掃描王,Ta 想干嘛?
有沒有一種可能,此時他們并不是想“掃描”,而是想把照片里的文字提取出來,復制到別的地方用?
有可能是,也可能不是。。。
2021年夏天,夸克這群年輕人就帶著這種狐疑上線了“文字提取”功能。
攝像頭是手機上最寶藏的一個模塊嗎?-84.jpg (113.37 KB, 下載次數(shù): 6)
下載附件
2023-2-19 15:11 上傳
這個操作效果炸裂。
從激增的后臺調(diào)用量看,用戶仿佛在說:這么牛X的功能,搞么子現(xiàn)在才上?
為啥大家對文字提取這么情有獨鐘?我還真琢磨了一下。
看看我們自己的大腦就知道了,人類的右腦負責形象思維,左腦負責邏輯思維。長期的進化讓大腦產(chǎn)生了這樣的左右分工,那必然是因為這樣比“左右腦一團漿糊”更好。
好處是啥呢?省能量。
語言文字屬于邏輯思維——可以用“抽象的信息”反應“具象的世界”——而抽象的信息真的很省地方。
你看,說“蘋果”兩個字只需要半秒,把這兩個字寫出來也只需要兩秒,可畫出一個蘋果恐怕需要一分鐘。遇到手笨的,畫一個蘋果恨不得消耗兩個蘋果的卡路里。。。
所以,“文字提取”功能的本質(zhì)是把一張“圖像”里的“邏輯信息”(而非視覺信息)提取出來,復制、粘貼、修改、搜索隨你大小便——大大降低信息處理的成本。
在原有的視覺工具旁邊直接加了一個邏輯工具,沖鋒槍+迫擊炮,買一送一,肯定受歡迎嘛!
(我替你們體驗了一下文字提取,原諒我此時身處賓館,能找到的紙不多。。。)
攝像頭是手機上最寶藏的一個模塊嗎?-85.jpg (36.12 KB, 下載次數(shù): 6)
下載附件
2023-2-19 15:11 上傳
嘗到“提取”功能的甜頭之后,夸克這群“摸金校尉”如同找到了掃描領域的新一道暗門,向幽深的秘境又挺進一層。。。
尹毅彬回憶,那天產(chǎn)品團隊在整理用戶反饋時,又發(fā)現(xiàn)一個奇怪的案例。
這個用戶反饋了一張手寫的購物單,上面寫著:菠菜XX元,買了XX斤;白菜XX元,買了XX斤,諸如此類。
用戶的訴求是:我拍了這個購物單,你們能不能給我轉成 Excel 表格?
原來,他是一個飯店的采購員,每天進貨,月底盤點,得把30天的數(shù)據(jù)金額加總。過去手寫數(shù)字加總,得鼓搗半小時,還不一定算對。如果能有工具把手賬變成 Excel,那妥妥從石器時代直接進入工業(yè)革命??!
尹毅彬一看,有道理!他去找技術老師傅,有點心虛地問:手寫字,能提取出來么?
黃銳華呵了一下:可以試試。
其實,這個技術黃銳華團隊并沒那么陌生。在兩年前夸克的“學習”模塊里,就實現(xiàn)了一個小功能:把學生手寫的答案轉換為印刷體。
但注意,這兩者的難度是不同的。
一個學生寫題,他的目的是讓判卷的老師看懂,潦草程度是有下限的。
比如這樣:
攝像頭是手機上最寶藏的一個模塊嗎?-86.jpg (77.98 KB, 下載次數(shù): 5)
下載附件
2023-2-19 15:11 上傳
一個人寫采購單,就是為了記賬給自己看,那潦草程度是沒有下限的呀!
比如這樣:
攝像頭是手機上最寶藏的一個模塊嗎?-87.jpg (39.58 KB, 下載次數(shù): 6)
下載附件
2023-2-19 15:11 上傳
簡而言之,之前給搜題做的那套手寫識別技術根本拿不出手,必須加大數(shù)據(jù)劑量,重新訓練。
不過,這次黃銳華遇到了強勁對手。越深入訓練,技術團隊就越抓狂——仿佛自己身處一個深不見底的巨坑里。。。
手寫體的難度不只在于潦草,更在于你要理解手寫信息的復雜含義。
比如訪客登記的時候,上面那個人在性別那欄填了“男”,你填表的時候,就在下面打兩個點,表示“同上”。人類很容易理解的事情,人工智能就想不通。
再比如我們寫好了一段話,突然想在兩句之間新插入一句,就會打一個插入符號,然后把新的字寫在縫隙里。這種意思AI就很難理解。
黃銳華解釋。
地獄級的情況還在后面——手寫字和印刷字同時出現(xiàn)在一張紙上。。。
舉幾個栗子:
比如,我在一個填空題上寫了“一”,但在人工智能看來,這個“一”是一橫,下面的橫杠也是一橫,這不就是“二”么?
再比如,我在方格本里寫了“女人”,人工智能肯定會質(zhì)問你,這TM不是“囡囚”是什么?
亂世須用重典,難題得上狠活。為了解決這個問題,老師傅一股腦派了三個 AI 出戰(zhàn):
首先,訓練一個AI,它不負責識別文字,只用來分辨哪一筆是手寫的,哪一筆是印刷的。
然后,是正常的 AI 文字識別。由于剛才已經(jīng)盡可能把兩種筆畫分開,此時識別準確率會大大提高。
最后,再派一個 AI 結合上下文讀一讀通不通順。比如,“美好的一天“明顯就比“美好的二天”更通順;“她是個女人”,就比“她是個囡囚”更對嘛。。。
總之,兩個月后,黃銳華在會上蛋定地展示手寫文字提取 Demo 的時候,尹毅彬嚇得一蹦:老哥,你還真弄出來了呀!
攝像頭是手機上最寶藏的一個模塊嗎?-88.jpg (141.21 KB, 下載次數(shù): 6)
下載附件
2023-2-19 15:11 上傳
攝像頭是手機上最寶藏的一個模塊嗎?-89.jpg (136.36 KB, 下載次數(shù): 6)
下載附件
2023-2-19 15:11 上傳
有了“印刷體”+“手寫體”這兩個文字提取,夸克掃描王才多少配得上“王”的稱號。
想想看,無論是在書上看到語句,還是在街上看到標語,還是在插圖里看到內(nèi)嵌的文字,你都可以在朋友的注視下,從容地掏出手機,一秒鐘把文字復制出來,“咻——”地發(fā)給他,優(yōu)雅蛋定不臟手。
這感覺很酷。裝X利器不一定是一個好的生產(chǎn)力工具,但一個好的生產(chǎn)力工具,一定是個裝X利器。
手寫文字識別準確率到了99%,手寫識別率到了90%,掃描王團隊以為事情已經(jīng)做到八九不離十。然鵝,他們又錯了。。。用戶就像一盒巧克力糖,你永遠不知道下一個是神馬口味。
他們總能掃描“奇怪的東西”。。。
(四)去冒險吧!
你看這個:
攝像頭是手機上最寶藏的一個模塊嗎?-90.jpg (35.74 KB, 下載次數(shù): 6)
下載附件
2023-2-19 15:11 上傳
一個公式,你猜夸克掃描王會掃出神馬效果?
有了剛才的鋪墊,你可能也成了半個專家:首先,夸克至少可以把公式當成一個圖片來掃描(就像我現(xiàn)在把這個公式截圖插入文章一樣);但是,它有一個更優(yōu)雅的選擇——把公式像文字那樣“提取”出來。
攝像頭是手機上最寶藏的一個模塊嗎?-91.jpg (10.15 KB, 下載次數(shù): 6)
下載附件
2023-2-19 15:11 上傳
沒錯,這里遇到了一個比“文字提取”棘手一百倍的問題:“格式提取”。
而且,“公式”最多只是所有煩人格式里的一種。咱們隨便看一張海報,上面有圖片和文字混合排版,有各種字體,還有彎成蝦一樣的變形設計——這一切都是格式!
攝像頭是手機上最寶藏的一個模塊嗎?-92.jpg (150.66 KB, 下載次數(shù): 6)
下載附件
2023-2-19 15:11 上傳
格式是魔鬼,反正我還記得大學時代被格式支配的恐懼。那時候寫論文,“首行縮進”這么一個小問題,經(jīng)常是刪一格太左,加一格太右,純純能把人逼瘋。
夸克這群人需要“降魔”。為了把一個圖片上的格式完整“扒”下來,老師傅們專門去找其他文檔團隊取經(jīng),把一整套文字格式處理邏輯嵌入掃描王。
事情還沒完,如果你把文字和圖像混合在一起排版,噩夢直接翻十倍。
咱們還以掃描那張海報為例,靈魂拷問一個接一個:
難題一:哪里是圖案,哪里是文字?
海報的排版是放飛自我的。各種顏色的裝飾、斑點還有文字、字母、數(shù)字都摻雜在一起。
很多時候就連視力1.5的人都得仔細分辨哪個是“逗號”哪個是“底色里的裝飾黑點”。
難題二:到底是海報斜,還是圖案偏?
人眼有誤差,很難把海報拍得周正,總會有多多少少的偏角。這個時候系統(tǒng)理應把海報轉正。
可問題來了,假如海報上有一個藝術字,字體就是斜體的。那么,怎么判斷是“因為海報斜了這個字才斜了”還是“海報沒那么斜這個字本來就是斜的”?!
難題三:到底是圖案還是瑕疵?
有些海報很大,展開之后會有折痕。那請問,如何判斷一條線是海報上的圖案設計,應該保留,還是無用的折痕,需要抹除?
難題四:背景如何補足?
海報掃描出來是帶有格式的,這也就意味著你可以修改海報上的字。
可海報不再是 PS 文件,所有圖層都已經(jīng)融成一體。如果你刪掉了一個字,它下面就會露出一片恐怖的空白?。撚檬裁搭伾?、圖案來填充呢?
這里面隨便一個問題都是業(yè)界難題,但黃銳華挽起袖子,勞資不上秋名山,你們真當我是賣豆腐的!
比如“折痕”和“圖案”,從三米開外可能看起來一樣,但是如果放大端詳,一定能找出二者區(qū)別。算法需要做的改進就是“精細”。但做這么精細的微操,就代表云端 AI 要計算更多的數(shù)據(jù),耗費更多的計算力。
比如“背景補足”,其實現(xiàn)在最先進的AI算法是可以根據(jù)周圍的信息把中間的空白補充得以假亂真的。問題還在于“數(shù)據(jù)量”和“計算力”,只有在云端猛堆機器,才能把這個活兒干漂亮。
AI 的殿堂歡迎技術流,但更歡迎人民幣玩家。
黃銳華告訴我,為了挑戰(zhàn)極限,他們已經(jīng)卷瘋了,2022年整個夸克云端的AI計算力已經(jīng)升級成最新一代的 GPU,上面跑的算法基本每個月都有升級更新。
此時此刻,雖然海報的掃描效果還沒達到他心中的完美境界,但相比世界范圍內(nèi)的同類產(chǎn)品,他還是可以拍胸脯的。
我?guī)湍阍嚵艘幌???
攝像頭是手機上最寶藏的一個模塊嗎?-93.jpg (52.15 KB, 下載次數(shù): 6)
下載附件
2023-2-19 15:11 上傳
我們的用戶對排版接受很高的。從會員付費情況就能知道,大家愿意為好的效果買單。
黃銳華不客氣。
說回我們的故事。從2022年開始,夸克掃描王突然進入了一個有趣的螺旋:能掃描的東西越奇怪,就有越多人用;越多人用,這群人就會去掃描更奇怪的東西。
正所謂,浪大了不知道催上來什么海鮮。
最近,通過各種渠道,老師傅開始看到有人拍歌單,有人拍樂譜,有人拍少數(shù)民族的文字,還有人拍一堆源代碼。
雖然他們沒說,但用戶肯定不會做無意義的動作。
黃銳華說。
于是,掃描王團隊開始思考一些瘋狂的事情。比如,能不能內(nèi)嵌一個音樂播放引擎,讓掃描王看到五線譜就直接把音樂播放出來?比如,能不能加入一個模擬器,把看到的代碼直接運行出來?
你看,從提取文字,到提取格式,現(xiàn)在到了“提取一切”。掃描這個坑比馬里亞納海溝還深。。。
當然,這些只是一小部分例子,各種有趣的功能每天都在討論中,受限于各種因素最終未必都做出來。但老師傅敢討論這些東西,前提是掃描的核心技術已經(jīng)到了足夠“支撐花活兒”的地步。
“就拿代碼來說,它對格式極其敏感。同樣一個位置,放兩個空格和三個空格,意義就不相同了。如果掃描不對,肯定執(zhí)行不對!”黃銳華解釋。
聊到這里,我頗有一點感慨。
用戶在拍這些奇怪的東西時,肯定沒想這么多。但實際上,遠在千里之外,他們所有靠譜不靠譜的嘗試都沒有被責怪,更沒有被忽視,而是被思考,被念念不忘,被必有回響。
如果說存在“互聯(lián)網(wǎng)精神”的話,恐怕這就是互聯(lián)網(wǎng)精神的重要部分。
我在2020年曾經(jīng)和夸克的小伙伴們聊過一次(參考《當年輕人說夸克真香的時候,他們在說什么》
),那個時候,我感覺夸克的用戶中學生比例極高——就是那些整日做題、搜題,純純的人生新手。
但如今看夸克掃描王的用戶,已經(jīng)大有不同。
他們之中可能有公司的人事經(jīng)理,需要經(jīng)常整理人員信息,備份合同;可能有工程師,需要掃描圖紙增改設計;可能有“包租婆”,需要掃描一份舊的租房合同,修改一下信息重新打印。
攝像頭是手機上最寶藏的一個模塊嗎?-94.jpg (277.62 KB, 下載次數(shù): 6)
下載附件
2023-2-19 15:11 上傳
這張圖里有房屋租賃交割單、企業(yè)詢證函和材料計劃表。
這些用戶顯然已經(jīng)走出了人生的新手村,正在各自的戰(zhàn)場跟怪獸搏斗。
在我看來這是一個有愛的變化。
我試著想象這件事是怎么發(fā)生的:也許是在學生時代就用夸克的人長大了,他們進入了五花八門的工作崗位,仍然習慣依靠夸克解決問題;也許是一些“老人”被年輕人安利“夸克yyds”,然后入坑。也有可能是兩種情況兼而有之。
但這一切之所以發(fā)生,恐怕是因為在一段不短的日子里,夸克沒讓他們失望。
大多數(shù)時候,“維護信任”比“建立信任”更難。因為你要在漫長的歲月里時時審視自己——不僅審視自己的善,更要審視自己可能的惡。
(五)兄弟,信我!
在夸克日常收到的反饋里,有律師說他用夸克掃描裁判文書,也有公司財務說她會掃描經(jīng)營數(shù)據(jù)。
看到這,你也許會有點隱隱的不舒服。
沒錯,大膽說出來——這些數(shù)據(jù)涉及隱私,用夸克掃描王時,數(shù)據(jù)經(jīng)過云端會不會有問題?
這件事兒引發(fā)的大討論,居然沒有首先發(fā)生在夸克的用戶群里,而是在夸克團隊內(nèi)部。
為了使后面的討論基于事實,這里必須得強調(diào),夸克團隊的任何人都不能查看用戶上傳的圖片,也不能以任何形式泄漏用戶上傳的數(shù)據(jù),約束他們的不只有自我道德,更有法律條文。
但你吃了幾碗粉,不是你說了算。世界的運行,也不能靠賭咒發(fā)誓。
比如,有很多公司,在規(guī)章制度里就寫明,禁止內(nèi)部數(shù)據(jù)上傳互聯(lián)網(wǎng),不管會不會引發(fā)問題,反正不允許上傳;還有很多特殊的工作環(huán)境,本身就帶有信號屏蔽,這種情況下,就算讓你用都沒辦法用。
意識到這些問題以后,夸克這群人決定緊急上線一個“補丁”——離線掃描。
你還記得一開始我們說的掃描三步走嗎?1、本地裁剪;2、云端處理;3、發(fā)回本地導出文件。
所謂離線掃描,就是把第2步本該在云端完成的一切(去瑕疵、去手寫、文字提取、格式提取等等)統(tǒng)統(tǒng)都塞在手機里完成。數(shù)據(jù)從頭到尾都不出手機,自然不會有隱私泄露的問題。
這種“不出手機”是可驗證的——你可以關掉網(wǎng)絡,拔掉手機卡,進入信號屏蔽室,whatever,只要手機有電,夸克掃描王就能工作。
可是,這個目標會引發(fā)一個巨大的技術問題:
算法團隊剛剛使出吃奶的勁兒,把云端的計算力飆到最高,把算法卷到最新,才把掃描效果做到極致?,F(xiàn)在你端著手機告訴他,忘掉你們那可愛性感一望無際的小云朵吧,這個小盒才是算法的家啊。。。
攝像頭是手機上最寶藏的一個模塊嗎?-95.jpg (9.52 KB, 下載次數(shù): 5)
下載附件
2023-2-19 15:11 上傳
然而,暴躁老師傅黃銳華沒有掀桌子。相反,他非常支持。
他支持到了從本就人手不富裕的團隊里分出一個小分隊,專門做“離線算法”的程度。
把算法塞進手機,難度堪比把大象裝冰箱,嚴格來說比把大象裝冰箱更難,因為云端算法比手機里的算法大100倍。而世界上沒有任何一個東西壓縮100倍之后還能保持原有的功能——這意味著大多數(shù)算法必須重寫。
老師傅沒日沒夜地飆車,終于,2020年8月“離線掃描”重磅上線,用1%的模型大小,實現(xiàn)了云端90%的水平。
攝像頭是手機上最寶藏的一個模塊嗎?-96.jpg (85.31 KB, 下載次數(shù): 5)
下載附件
2023-2-19 15:11 上傳
從一個角度看,離線掃描的水平非常驚艷,但從另一個角度看,它卻是一個“性價比非常差”的功能。
比如,它上線之后,被調(diào)用的數(shù)量并不多——因為絕大多數(shù)情況下用戶掃描的都不是敏感信息,不會開啟離線模式。
比如,派一個專門的團隊來持續(xù)維護離線算法非常不經(jīng)濟——相當于一輛車同時有兩部引擎運轉,開銷巨大。
而且,還有一個非常難受的問題:在大多數(shù)用戶的注意力沒有放在隱私風險的時候,主動推出離線掃描,反而讓他們覺得怪異,有引火上身的風險。就像我忽然對你說:你猜我的褲子拉鏈有沒有拉上?哈哈,拉上啦!
但尹毅彬說,他們不這樣看問題。
“一個功能好不好,不能純粹用數(shù)據(jù)來衡量。說得不客氣一些,數(shù)據(jù)是會騙人的,有時你必須更相信自己的腦袋?!彼f。
“但成本上總會有壓力吧?”我問。
“當然有壓力。壓力歸壓力,正確的事歸正確的事?!彼f,“況且,正確的事情早晚會帶來數(shù)據(jù)的回報?。〔挥脫?,長期來看我們并不虧?!?br />
講真,每個年輕人長大的過程中,生活都會或早或晚給他上一堂必修課,那就是:當越來越多人依賴你的時候,你身上就憑空出現(xiàn)了一種叫做責任的東西。而責任就是責任,它不會因為你不想負責任而變成別人的責任。
這是一個既簡單又難的道理。簡單到人人都能理解,卻難到極少有人能夠做到。
話說回來,性價比很高的事情,總共就那么三五件,智商正常的人都在做。真正把人和人、產(chǎn)品和產(chǎn)品區(qū)別開的,不就是誰做了更多性價比不那么高,但正確的事情么?
倒不能說夸克已經(jīng)是楷模,我的意思是他們努力的方向還挺性感的。
(六)我們各自還有一生的奇跡
王淮是一個對未來充滿想象的人。他具體在做的事情雖然只是一個夸克客戶端,但他卻相信,手機背后這幾顆小小的攝像頭里有關于未來的隱喻。
我們基于攝像頭做了很多不同的事情,但這背后有一條主線任務——“理解世界”。
比如我們最早做的萬物識別,是理解鏡頭里的物品;現(xiàn)在我們做的掃描王,是理解一個平面上的信息。
如果向未來看,我們可以讓鏡頭對準一切,比如你的視野里是街景,屏幕上就會把這個建筑的名字標注出來;比如你的視野里是一本書,就會把作者年代書評等等信息顯示出來,英文書也可以實時翻譯成中文。
在我的個人觀點里,基于相機的工具的終極形態(tài),應該是一個AR(增強現(xiàn)實)助手。
他說。
我在網(wǎng)上找到了一些AR未來應用的片段???
攝像頭是手機上最寶藏的一個模塊嗎?-97.jpg (76.3 KB, 下載次數(shù): 6)
下載附件
2023-2-19 15:11 上傳
攝像頭是手機上最寶藏的一個模塊嗎?-98.jpg (80.17 KB, 下載次數(shù): 6)
下載附件
2023-2-19 15:11 上傳
攝像頭是手機上最寶藏的一個模塊嗎?-99.jpg (79.78 KB, 下載次數(shù): 6)
下載附件
2023-2-19 15:11 上傳
我回味了一下他的描述,腦海里突然出現(xiàn)了一個奇怪的場景:
我是一個上班第一天的戰(zhàn)五渣,緊張到臉盲,連隔壁同事叫什么都忘了,這個時候,打開AR眼鏡上的掃描王,對方的名片,還有我們認識的時間地點,曾經(jīng)交談過的內(nèi)容,都出現(xiàn)在眼球幾厘米開外的小屏幕上,簡直是社恐救星。
就在我盯著屏幕認真研究對面這個人是誰的時候,驚奇地發(fā)現(xiàn)他也在斜眼看自己的屏幕,奮力找出我是誰。。。
這個場景等同于:一個游戲新手,正瑟瑟發(fā)抖站在曠野上,突然從天上掉下來一把滿級神刀,拿起來剛想大殺四方,發(fā)現(xiàn)身邊所有的對手也都瞬間添置了一模一樣的刀。。。
攝像頭是手機上最寶藏的一個模塊嗎?-100.jpg (163.9 KB, 下載次數(shù): 8)
下載附件
2023-2-19 15:11 上傳
如今每個人都能坐在鐵鳥的肚子里飛到全世界任何一個地方,每個人能用帶芯片的板磚跟天邊的朋友通話,你并不會驚奇。因為當每個人都有神刀的時候,每個人就都沒有了神刀。
科技讓我們平等地進步,平等到?jīng)]人大驚小怪。
如果真有什么是神奇的,在我看來,是夸克團隊和他們的用戶,這兩群年輕人一直在隔空“陪伴”。
當年輕人上路,口袋里揣著一個精靈球,雖然牛鬼蛇神在前路夾道歡迎,但他們無比確信,在云端有一群和自己一樣逗比又好奇又不愿輕易認輸?shù)膹娖劝Y、老司機、好哥們,在沒日沒夜地絞盡腦汁幫自己改進精靈球,心里也許會稍稍安慰。
相信老哥我,以我三十多年對這個操蛋的世界的理解,哪怕是這種稍稍的安慰,都是人生中不可多得的珍貴情感。
能帶著情誼和一群朋友一起變大,變老,從戰(zhàn)五渣變成“老戰(zhàn)五渣”,反復吐槽那些只有你們之間才懂的爛梗,恐怕無需遠求,人間至味是此清歡。
雖然你我終將老去,但總有人正年輕。
有一件事我們無比確信:在世界的角落里,永遠有18歲的少年,他們在新手村口最后回望,然后扶一扶劍柄,決絕地走向荒野。
也許這時,BGM還會響起那首老歌:你要去哪里,我去哪里,我也不在意。以后我們各自還有一生的奇跡。
攝像頭是手機上最寶藏的一個模塊嗎?-101.jpg (29.39 KB, 下載次數(shù): 7)
下載附件
2023-2-19 15:11 上傳
再自我介紹一下吧。我叫史中,是一個傾心故事的科技記者。我的日常是和各路大神聊天。如果想和我做朋友,可以搜索微信:shizhongmax,也可以關注微信公眾號淺黑科技:qianheikeji
史中:像素時代的黃昏和“淘寶叛軍”史中:夸克“兇猛”:一場手機鏡頭背后的狂野冒險 |
|