国产乱了高清露脸对白-日韩高清在线一区-激情三级hd中文字幕,亚洲一区二区视频免费观看,亚洲精品色综合av网站,女性私密紧致按摩电影

天才人工智能也學習 光鮮智能背后由人工撐傘家電

砍柴網 / HEA.CN / 2017-04-08 18:55
有IT數據公司的員工表示,標注數據和富士康的流水線沒有多大區別,屬于不斷重復著同一個動作同一件事情,都處在價值鏈的底端。

2016年,谷歌旗下的人工智能公司DeepMind研發了一個能夠讀懂唇語的人工智能系統。讓AI系統學習了5000個小時的BBC新聞節目后, 其準確率攀升至46.8%,秒殺唇讀專家的12.4%。同樣的情形還發生在圍棋冠軍李世石與阿爾法狗身上。AI深度學習之所以能取得巨大成功,一個重要因素是其背后起著絕對支撐作用的人工標注數據,這些數據由大量的人工從眾多數據樣本中搜集、清理、標注和分類加工而來。隱藏在人工智能背后的并不只是衣著光鮮的技術,而是代價極高的人工標注。目前AI尚未擺脫對大規模數據和樣本必須先由人工標注方可學習的依賴。

目前的人工智能,由兩個部分組成:“智能”和“人工”。也即現階段的人工智能仍未達到完全智能的境界,而是仍然處于深度學習的過程。在這個背負著世界上最先進的科技代名詞的背后,矗立的是一個龐大由人類構成的群體,他們不是人工智能公司的科學家和工程師,而是數據標注團隊。

據HEA了解,數據加工公司的工作人員會手動為圖片、視頻和語音內容打標簽、做標記。標注好的數據會被人工智能公司用來訓練算法模型,然后應用到圖像識別、語音識別等不同領域。如在圖片中標注所有人眼可見元素,包括人物、動植物、景色、物體、類別等,這便是圖像識別技術運用的初始模樣。

經常與圖像識別打交道的人工智能領域研究者們,大多都使用過數據龐大且對外開源的數據集ImageNet,包括此前從百度離職的吳恩達。ImageNet中擁有1500萬張標注圖片,據了解,這些圖片是由全球167個國家的近50000名工作者花費2年的時間,對近10億張通過互聯網搜集到的圖片進行分類和標注,才造就而成的。有數據標準公司員工向家電網稱,一個標注員一天標準10張圖片已經很不錯。

值得一提的是,2月26日,谷歌宣布開放了一個基于 Youtube 視頻的圖像數據集 Youtube-BoundingBoxes Dataset,為所有研究者進行模型訓練和研究提供了新資源。谷歌宣稱這個數據集的檢測數量(detection count)為ImageNet的五倍。這個數據集包含1050 萬人工標注的幀,500 萬邊界框,從 24 萬個截取的視頻中標記了38 萬條 15-20 秒鐘長度的視頻片段。

如今在眾多科技公司背后,都會有數據標注公司的身影,他們負責對圖像、視頻、語音、文本等數據進行清晰、評估、提取以及標注,而同一張照片或者同一個視頻,每一家人工智能公司所需要的數據內容需求和用途大不相同,用來訓練人工智能學習能力的類別也不同,因此同一張照片可能會有多種標注。

人工智能所依靠的是大數據,大數據卻是由眾多數據加工公司手動處理過的結構化數據構成。大數據支撐著人工智能系統,數據公司支撐著大數據的結構化,數據標注員支撐著數據的準確性和高質量。在公眾眼中,看到的是家電廠商展現在客廳里的智能識別技術,實際上對團隊而言,是日夜顛倒、枯燥乏味的一張一張圖片的耐心標注。

有IT數據公司的員工表示,標注數據和富士康的流水線沒有多大區別,屬于不斷重復著同一個動作同一件事情,都處在價值鏈的底端。當外界贊嘆人工智能改變了大眾生活的方方面面、讓生活變得更加美好的同時,是由眾多的數據標注員們的耐心和專注搭建而成。人工智能的火熱帶動了大量的數據加工初創公司的涌現,而這些將人工智能推向科技頂端的標注員并未因此站在科技頂端。

據了解,微軟亞洲研究院的研究人員們于去年提出了一種全新的人工智能深度學習范式——對偶學習。對偶學習可以將未標注的數據用起來,從而降低對人工標注大量數據的已有學習范式的依賴。

作者:HEA.CN 來源:家電網



1.砍柴網遵循行業規范,任何轉載的稿件都會明確標注作者和來源;2.砍柴網的原創文章,請轉載時務必注明文章作者和"來源:砍柴網",不尊重原創的行為砍柴網或將追究責任;3.作者投稿可能會經砍柴網編輯修改或補充。


閱讀延展



最新快報

1
3