国产乱了高清露脸对白-日韩高清在线一区-激情三级hd中文字幕,亚洲一区二区视频免费观看,亚洲精品色综合av网站,女性私密紧致按摩电影

快手CEO宿華:透過50億條視頻,用AI提升每個人的幸福感業(yè)界

砍柴網(wǎng) / 極客公園 / 2018-05-22 15:09
5 月 19 日,2018 年中國圖靈大會(ACM TURC 2018)在上海舉行,產(chǎn)學(xué)研各界集聚一趟,分享計算機(jī)領(lǐng)域的最新技術(shù)進(jìn)展,并探討當(dāng)社會前沿科技的問題和跨領(lǐng)域的發(fā)展趨勢。

5 月 19 日,2018 年中國圖靈大會(ACM TURC 2018)在上海舉行,產(chǎn)學(xué)研各界集聚一趟,分享計算機(jī)領(lǐng)域的最新技術(shù)進(jìn)展,并探討當(dāng)社會前沿科技的問題和跨領(lǐng)域的發(fā)展趨勢。快手創(chuàng)始人兼 CEO 宿華在題為「AI 如何提升幸福感」的演講中描述了快手滿載技術(shù)與人文的一面。

此外,快手 AI 技術(shù)副總裁鄭文也出席了該大會,與 ACM 圖靈獎得主、有「互聯(lián)網(wǎng)之父」之稱的 Vinton Cerf 教授,ACM 圖靈獎得主、哈佛大學(xué) Leslie Valiant 教授,澳門大學(xué)副校長倪明選教授,商湯科技聯(lián)合創(chuàng)始人、CEO 徐立,資深傳媒人楊瀾共同探討人工智能的未來。

宿華提到最早在谷歌的工作經(jīng)歷讓他開始接觸到機(jī)器學(xué)習(xí),在解決問題中不斷認(rèn)識和理解人工智能,在搜索引擎中利用 AI 匹配問題和答案。后來的工作中,他不斷思考「AI 應(yīng)該用來解決什么樣的問題」,直到在快手創(chuàng)立之后,這個答案越來越清晰和具體——提升人類的幸福感。

關(guān)于幸福感,宿華是這樣定義的,記錄可以提升人們的幸福感:一個是看見別人,一個是被別人看見。每個人心中都有這樣的渴望,希望自己的狀態(tài),自己的情感,自己的靈感,能夠被更多的人看見,被更多的人理解。我想記錄是其中最關(guān)鍵的一環(huán),是能夠使得每個人幸福感都得到提升的可能的方案。

經(jīng)過 7 年的創(chuàng)業(yè),快手平臺的日活躍用戶量已經(jīng)達(dá)到 1 億,用戶累計發(fā)布短視頻超過 50 億條,每天有 150 億條視頻被播放,用戶日均使用時長超過 60 分鐘。在這背后,快手后天的工作人員們需要面對一個前所未有的難題——每天新增千萬條量級的、內(nèi)容各異的視頻,以及更為重要的將內(nèi)容匹配到特定的用戶手里。

「過去的視頻平臺,庫里每天新增的視頻從來沒有突破過千萬量級的,這在歷史上都是沒有過的。」宿華說道。

快手需要面對的問題可以拆解為兩個,一是處理每天海量的增量視頻內(nèi)容,二是兼顧到每個用戶需求,包括長尾用戶。為此,快手提出了一套基于 AI 的技術(shù)解決方案,包括從視頻內(nèi)容生產(chǎn)、到視頻理解、用戶理解,以及最后的分發(fā)系統(tǒng)的每個環(huán)節(jié)。

在內(nèi)容創(chuàng)作環(huán)節(jié),宿華介紹,快手提供了魔法表情、整體姿態(tài)檢測、AR 特效等不同模塊來豐富內(nèi)容記錄的形式和效果,這些實時效果的實現(xiàn)來自于人體姿態(tài)估計、視覺慣性里程估計、手勢識別等技術(shù)的運用,以及快手自主研發(fā)的搭建的 YCNN 深度學(xué)習(xí)推理引擎支持。

快手 AI 技術(shù)副總裁鄭文舉例,快手會通過深度學(xué)習(xí)算法來檢測用戶拍攝的場景類別,并據(jù)此選擇最適合的濾鏡效果來提升視頻的質(zhì)量。通過人體關(guān)鍵點識別技術(shù),快手能夠為用戶的肢體加上特效,比如讓虛擬的火球跟隨人手的位置進(jìn)行運動,此外還有很多人臉裝飾貼紙、AR 模型等基于 AI 技術(shù)的特效,讓每個用戶的記錄形式更加豐富多彩。

在視頻理解層面,快手基于視頻多模態(tài)分類、描述、檢索算法,對視頻中的人臉、圖像、音樂、語音進(jìn)行多個維度的解讀,從高層語義不斷進(jìn)階到情感識別層面。在系統(tǒng)底層,快手建立了多機(jī)多卡深度學(xué)習(xí)訓(xùn)練推理平臺和數(shù)據(jù)標(biāo)注平臺。

在數(shù)據(jù)標(biāo)注環(huán)節(jié),宿華提到,快手并不是純粹地從內(nèi)容出發(fā),還包括基于用戶的行為數(shù)據(jù)。「快手的核心優(yōu)勢得益于我們是一個社區(qū),社區(qū)里面每天有上億的人在幫我們標(biāo)注,他們的點擊點贊行為,他們的關(guān)注行為,他們的轉(zhuǎn)發(fā)行為,他們的播放時長,他們?nèi)撕腿酥g相互的關(guān)系,網(wǎng)狀的關(guān)系,就在幫助我們更好的理解用戶,我們不是純粹從內(nèi)容出發(fā)的,我們還有行為數(shù)據(jù)。」

在用戶理解層面,快手在海量用戶和 50 億視頻中間建立起一套雙向感知系統(tǒng)。從早年的 Linux 人工干預(yù)方式,進(jìn)化到當(dāng)下的基于深度學(xué)習(xí)的實時在線學(xué)習(xí)推薦系統(tǒng),快手能夠做到理解用戶的實時行為,并不斷挖掘用戶的潛在興趣。

基于用戶實時行為的理解,快手通過前端的在線推薦以及后臺的秒級更新模型的日志系統(tǒng)實現(xiàn)精準(zhǔn)匹配的內(nèi)容分發(fā)。在鄭文參與的論壇環(huán)節(jié),關(guān)于算法的智能推薦也引起了一些爭議,大眾普遍認(rèn)為智能推薦只會根據(jù)用戶的興趣愛好推薦內(nèi)容,久而久之用戶就會被自己關(guān)心的事物圍繞,從而失去對外界的整體認(rèn)知,形成「信息繭房」效應(yīng)。

對此,鄭文分享了快手的推薦機(jī)制:快手的推薦給用戶的內(nèi)容,絕非僅僅用戶最感興趣的部分,而是會考慮到內(nèi)容的多樣性,在更廣闊的領(lǐng)域發(fā)現(xiàn)感興趣的內(nèi)容。

例如某一位用戶對足球感興趣,那么后臺 AI 系統(tǒng)除了給他推送足球和其他球類甚至其他類別體育運動相關(guān)內(nèi)容,還會對同樣喜歡足球的群體進(jìn)行分析,找到他們除了足球以外還有哪些興趣點,從而把這些興趣點相關(guān)內(nèi)容也推送給這位用戶,幫助用戶不斷拓展興趣邊界,打破「信息繭房」,也與其他人建立更強(qiáng)更深入的連接。

最后,宿華提出了一系列對于短視頻與 AI 的未來研究方向的思考,在這之中他對于「多模態(tài)信息融合的視頻理解」最感興趣,他提到,這里的理解不僅在內(nèi)容層面,還包括對于視頻中人物隱含在表情、聲線里的情緒、情感等。

以下是宿華在 2018 年中國圖靈大會(ACM TURC 2018)的演講全文,經(jīng)極客公園編輯。

宿華:在座的各位老師、各位同學(xué)、各位朋友,上午好。

大概 12 年前,我剛加入谷歌,開始接觸、學(xué)習(xí)和應(yīng)用機(jī)器學(xué)習(xí)的技術(shù),主要為解決搜索引擎當(dāng)中的一些問題,學(xué)了很多前人的推導(dǎo)公式,學(xué)了很多的模型、思想。

后來我思考,AI 應(yīng)該用來解決什么樣的問題,不是數(shù)學(xué)上的問題,而是說為社會、為人類應(yīng)該解決什么問題,想了很長時間有了一個答案。在這些年實踐的領(lǐng)域中,我想明白了不管我們做什么樣的技術(shù),最后都應(yīng)該用于提升人類的幸福感,或者是做到幸福感的改善。AI 當(dāng)然是當(dāng)下最火最熱的技術(shù),下面我給大家分享的就是我這些年是怎樣去用 AI 解決幸福感的問題。

首先有一個觀察,我們發(fā)現(xiàn)記錄是可以提升人們幸福感的,因為對于記錄來講,每一份記錄都有兩類人:一個是記錄的產(chǎn)生者、記錄者,一個是記錄的觀察者。

對于觀察者來講,通過別人的記錄可以看到更廣闊的世界,在城市里可以看到鄉(xiāng)村農(nóng)產(chǎn)品生產(chǎn),在鄉(xiāng)村里可以看到國外的世界,土耳其的熱氣球、非洲的小孩可以和中國人交朋友,在日本的留學(xué)生可以和自己在中國的家人、朋友交流。

一個是看見別人,一個是被別人看見。我們想每個人心中都有一個渴望,希望自己的狀態(tài),自己的情感,自己的靈感,能夠被更多的人看見,被更多的人理解,我想記錄是其中最關(guān)鍵的一環(huán),是能夠使得每個人幸福感都得到提升的可能的方案。

快手是 2011 年成立的,我們干了 7 年的時間,一路上經(jīng)歷了非常多的挑戰(zhàn),經(jīng)歷了日活在 1 億量的網(wǎng)絡(luò)社區(qū)。我們怎么做的呢?

我們在用科技的力量去提升每一個人的幸福感,我們在嘗試讓每一個人都能夠記錄自己的生活狀態(tài),每個人都有機(jī)會留下自己的記錄呈現(xiàn)給這個世界,每個人都能夠讓世界發(fā)現(xiàn)自己,每個人都能夠因此消減一點點的孤獨感,提升一點點的幸福感,從而能夠提升整個社會幸福感的總和。

我們在這條路上已經(jīng)走了七年的時間,直到上周,我們大概累計有 50 億條視頻。50 億條視頻是什么概念?

快手用戶平均每天能夠產(chǎn)生一千萬到兩千萬條視頻。中國有兩千多個縣,我們能夠拍到每個縣,在座的各位你們的家鄉(xiāng)每個縣都能夠看到數(shù)千條量級的視頻。用戶在任何時刻打開快手,都可以看到任何一個地方。這 50 億條視頻,幾乎都不重復(fù)。并非某些視頻的庫雖然很大,但是大體是同一個電影、或者綜藝的剪輯;在快手產(chǎn)生的、留下來的 50 億條視頻,都是生活中活生生的、新鮮的生活狀態(tài),形形色色的人,形形色色的事。

我們剛才講,其實幸福感需要讓我們每一個人都可以看見,被這個世界發(fā)現(xiàn),能夠讓自己的情緒情感被別人知道,被人感知,被別人看到,被別人理解。但是 50 億的量級是非常龐大的量級。我們過去的視頻平臺,庫里每天新增的視頻從來沒有突破過千萬量級的,這在歷史上都是沒有過的。所以在座的這些內(nèi)容、這些視頻,和那些觀察者之間匹配的時候,實際上以前說照顧好頭部就可以了,可是面對 50 億的生活片段,我們怎么把長尾的用戶照顧好,真的能夠讓每一個人都得到一些關(guān)注,每個人都消減自己的孤獨感,這實際上是非常艱難的課題。

我在十幾年前,在谷歌的時候就研究這個問題,我們做很好的匹配,做很好的信息的分發(fā)。實際上我們整體是在用 AI,用機(jī)器學(xué)習(xí)的技術(shù)在嘗試去解決。

歷史上的其他的視頻平臺不是那么需要,特別是每個視頻數(shù)量沒有那么多的時候,如果每年只新增兩百部電影,三百部電視劇,每一個電影、每一個電視劇,或者每一個綜藝節(jié)目,我們都可以用人工標(biāo)注的方式把它分析、理解的特別清楚。但是,每天新增千萬量級視頻,不可能找人標(biāo)出來,也不能找編輯去像傳統(tǒng)的媒體按板塊分發(fā)。我們想要去照顧長尾用戶、想要去照顧每一個人,這樣的平臺,我們更加無法挑選那些頭部的,極少數(shù)的熱的視頻給大家看。

那么我們的解決方法是什么?是用 AI,應(yīng)用在四個環(huán)節(jié)。第一個環(huán)節(jié)內(nèi)容的生產(chǎn),是記錄的產(chǎn)生環(huán)境。第二個環(huán)節(jié),如何讓這些人去理解視頻。我是 80 后,80 后從小就喊理解萬歲,我相信理解也是機(jī)器今天能夠做的一個主要的方向之一,讓機(jī)器像我們?nèi)祟愐粯幽軌蚶斫膺@個世界,能夠理解每一個人,讓機(jī)器理解每一個生活的片斷,這也是快手公司在做的事情,基于這樣的理解,我們后面才會有整個很好的分發(fā),有一個更好的平臺去照顧到每一個人。我們理解每一段視頻,每一個視頻片斷,我們要理解每一個用戶的偏好,理解每一個用戶潛在的偏好,最后才能做一個很好的分發(fā)視頻。

第一個模塊在記錄,下面一個視頻,今年 4 月份、5 月份上線的一個魔法表情,能夠快速模擬一個人,從年輕到老去的過程。第二個是整體的姿態(tài)檢測,里面還有 AR 的玩法,實際上他背后是基于我們自己研發(fā)的一套 3D 系統(tǒng)的 AR 系統(tǒng),我們 YCNN 的深度學(xué)習(xí)系統(tǒng),這個深度學(xué)習(xí)系統(tǒng)它的核心優(yōu)勢就是能夠在非常低端的手機(jī)上,跟我們一起實現(xiàn)跨平臺,不止在安卓、iPhone 上運行的效率提高,同時能夠把模型做得非常小,速度做得非常快。

最重要的是做了非常多的視頻中的記錄的玩法,解決人體姿態(tài)識別的問題,人臉關(guān)鍵點檢索問題,視覺慣性里程計,還有手勢識別。

讓機(jī)器理解這些視頻是什么內(nèi)容,當(dāng)一個生活的片斷上傳過來以后,我們立即會將一系列的信息拿掉,比如檢測有幾個人,進(jìn)一步需要檢測是男人還是女人,是老人還是小孩,是中國人還是外國人,能夠把之間的關(guān)系理解,就變得越來越難。我們除了跟人有關(guān)的識別,還做了大量圖像方面的,有場景的識別,是在會場還是在操場,是在家里或辦公室,我們做了很多的場景識別。

更進(jìn)一步、更難一點的,在做飯、做菜,還是在釣魚,各方面場景的場所,還有他正在做的事,是在賽車,還是在大馬路上騎自行車,還是卡車、轎車,有更多的更高級的識別。當(dāng)然我們還做了顏值識別,比較好玩,目前線上還沒有這個應(yīng)用。

這其中還有和語音有關(guān)的理解,就是我們經(jīng)常發(fā)現(xiàn)一個視頻,他里面很多信息是包含在音頻里面,特別是傳遞情緒,人類的很多情緒是在聲音里面,再轉(zhuǎn)化為語速、語調(diào)起伏,或者他用得配樂,就是音樂本身的情感屬性,我們做了大量的音樂的結(jié)構(gòu)化的理解。我們最高的并發(fā)大概是 20 萬,在快速的語言里面,有幾十萬的并發(fā)的、實時的語音識別的需求,我們到現(xiàn)在為止,還是僅用自己自研的,因為 20 萬的并發(fā)率,對機(jī)器的要求特別高,找第三方的話,不愿意投入機(jī)器。

另外可以快速的語音識別還有一個難點,我們的場景是生活場景,它不是收音干凈的。在生活中可能有兩個人在說話,可能有汽車在叫,可能在操場里面,或者在教室,整個是一個復(fù)雜的場景,這里面我們怎樣能夠做到最好的,速度要最快的語音識別,幾十萬部的并發(fā)識別,對我們來說也是一個非常大的挑戰(zhàn)。從全球板塊來講,我們會接受一定程度上的識別率的下降,但是要讓性能和讓場景的適應(yīng)性更好,這是快手目前面臨的問題之一。在底層,我們有自己研發(fā)的,一個大規(guī)模并行的機(jī)器學(xué)習(xí)的平臺,是做模擬訓(xùn)練和推理,也包括做一些數(shù)據(jù)的標(biāo)注。

當(dāng)然對快手來講,我們做視頻內(nèi)容的理解,很大程度上得益于我們是一個社區(qū),社區(qū)里面每天有上億的人在幫我們標(biāo)注,他們的點擊點贊行為,他們的關(guān)注行為,他們的轉(zhuǎn)發(fā)行為,他們的播放時長,他們?nèi)撕腿酥g相互的關(guān)系,網(wǎng)狀的關(guān)系,就在幫助我們更好的理解用戶,我們不是純粹從內(nèi)容出發(fā)的,我們還有行為數(shù)據(jù)。但是如何把用戶的行為數(shù)據(jù)和內(nèi)容清晰組合在一起,特別是把內(nèi)容里面的視覺加上時間軸以后進(jìn)行連續(xù)的視頻分析,再加上深度的分析,再加上用戶的行為分析,整個多模的集成組合在一起,也是一個非常有意思的課題。

第三個部分是理解用戶,當(dāng)然這里面的用戶并不是內(nèi)容的記錄者,是指看內(nèi)容,當(dāng)你拿出你的手機(jī),打開一個 APP 的時候,我們希望幫助你發(fā)現(xiàn)這個世界,這時候?qū)ζ脚_來講,我們需要理解你的興趣偏好,更主要的我們還需要理解你潛在的興趣,就是你過去還沒有探索過,但是你可能會喜歡的方向和領(lǐng)域把它挖掘出來,才能幫你探索更大的未知領(lǐng)域。

在快手,我們也是得益于我們做的是一個社區(qū),舉個例子,其實在日常生活中,我們怎么去擴(kuò)展自己的興趣偏好,一個是隨機(jī)的,不小心看到的、很好玩的,比如我當(dāng)年為什么會選擇做 AI,真的是不小心碰到了有一個團(tuán)隊在做機(jī)器學(xué)習(xí)的應(yīng)用,我跟他們聊了以后很感興趣,從此走上了這個路,這是一個非常隨機(jī)的狀態(tài)。還有一個做法是問朋友,比如在你的朋友圈里面,或者你的室友、你的同學(xué),到處說我昨天打了棒球,很好玩,你要不要一起來玩一下,我剛學(xué)了一個 C++語言不錯,要不要一起來學(xué)一起,朋友告訴你,幫助你擴(kuò)展你的興趣偏好。

在快手我們利用類似的邏輯去做,就是在一個大的社區(qū)里面,總有那么一些人跟你很相似,但又不完全一樣,跟你相似又關(guān)注他們喜歡的東西,他們喜歡的那些跟你偏好不一樣的東西,你極大的可能會喜歡,我們嘗試去擴(kuò)展興趣的時候,去理解一個用戶群偏好的時候,我們會應(yīng)用到里面,盡心去做,這樣可以幫助每一個人,你不是一個人在探索,是有社區(qū)里面成千上萬的人跟你相似又不同的人在探索,同時你幫助其他一些跟你相似而不同的人去探索,這樣我們可以更好的理解一個人的潛力。

接下來就是視頻分發(fā),我們的記錄能夠更好的產(chǎn)生,在內(nèi)容、視頻、生活片斷中會最好的理解,在用戶的偏好,潛在的興趣,能夠可以更好的挖掘的基礎(chǔ)之上,我們才能做一個更好的分發(fā)系統(tǒng)。這個分發(fā)系統(tǒng)可以真正照顧長尾,能夠讓更多的人找到自己喜歡的人,找到喜歡自己的人,能夠讓更多的人被看見,讓我們看見更大的世界。

我們現(xiàn)在已經(jīng)進(jìn)化到的用實時的方法做整個的日志系統(tǒng),可能有同行知道,早年我們都是用一些偏 Linux 的方法去做,到現(xiàn)在線上已經(jīng)能夠?qū)崟r的運行深度學(xué)習(xí)的方法,并且還不是一個模型,可能是一個層疊的組合的復(fù)雜的模型。但是事實上能夠做到標(biāo)值的響定,用戶的每次行為,事實上在一秒鐘以后,就能夠反應(yīng)到視頻中去,能夠給用戶更好、更準(zhǔn)、更廣闊的世界,等待用戶去發(fā)現(xiàn)。

未來我們還有很多想要研究的方向,這里面列了其中一些,我自己最感興趣的是多模態(tài)信息融合的視頻理解,我覺得總有一天我們的機(jī)器能夠像人類一樣理解一個視頻,我自己有一次看到一個特別有意思的視頻,那個視頻很短,是一個男生和一個女生走在一起,擁抱,然后分開。看到那個視頻的時候,我是能夠理解他們是一對情侶,他們應(yīng)該是最后一個擁抱,不清楚什么原因分開了。我當(dāng)時就想說,是不是機(jī)器有一天也能夠理解到這一層,我在理解這個視頻的時候,我發(fā)現(xiàn)有兩個人,我發(fā)現(xiàn)他們擁抱了之后,發(fā)出的聲音是包含了非常悲傷的情緒,他們分開的時候又很決絕,我們就得到了這樣一個結(jié)論。也許有一天我們做的人工智能系統(tǒng),能夠像我一樣,像人類一樣去理解生活中的片斷,能夠更好的理解人類的情緒、情感,甚至是靈感。我很期待那一天的到來。

對快手來講,我們是要構(gòu)建一整套的以 AI 技術(shù)為核心的基礎(chǔ)設(shè)施,能夠用科技的力量提升每一個人獨特的幸福感覺,能夠讓每一個人更多更好的感受這個世界,也能夠更好的被這個世界所感受到,這是快手最想做的事情。謝謝大家。

(來源:極客公園



1.砍柴網(wǎng)遵循行業(yè)規(guī)范,任何轉(zhuǎn)載的稿件都會明確標(biāo)注作者和來源;2.砍柴網(wǎng)的原創(chuàng)文章,請轉(zhuǎn)載時務(wù)必注明文章作者和"來源:砍柴網(wǎng)",不尊重原創(chuàng)的行為砍柴網(wǎng)或?qū)⒆肪控?zé)任;3.作者投稿可能會經(jīng)砍柴網(wǎng)編輯修改或補(bǔ)充。


閱讀延展



最新快報

1
3