人工智能能囊括所有知識?回顧史上最瘋狂的AI 計劃業界
今天的人工智能有夠膨脹嗎?
其實這話看怎么說,對比歷史上某些時刻的人工智能計劃,今天的AI熱其實只能算小巫見大巫。
今天我們就來介紹一個絕對夠宏大,甚至有點瘋狂的人工智能計劃。它的名字叫做Cyc。
跟很多人工智能與計算機科學領域的朋友聊天,總會時不時提到Cyc項目。因為這個項目曾經在美國盛極一時,代表了當時典型的人工智能技術與思考,更神奇的是這個1984年啟動的項目,直到今天還在繼續,并且始終處于建設中。
是不是好像有點厲害?
這個打算囊括人類所有知識體系的計劃,正好是八十年代初,上一次人工智能熱潮最好的縮影。
瘋狂年代:打包人類所有知識的超級AI計劃
我們知道,今天的人工智能技術中,有一個分類叫做“知識圖譜”。其基本概念可以理解為按照知識之間的關聯性,建立起復雜多元的連接網絡,從而讓智能體自我進行推理等信息聯動。
這項技術今天已經被廣泛應用到搜索引擎、智能廣告投放,以及多個自然語言處理領域。但“知識圖譜”在上世紀八十年代還沒有確定如今的名字,那時候它的名字簡樸的多,叫做“邏輯推理”。
邏輯推理作為一種人工智能技術,在四十年代就已經被提出了,這種讓智能體效仿人類的推理能力,進行運算和知識處理的方式,曾經一度占領人工智能研究的主流。在七十年代末,一種關于邏輯技術的新說法開始流行。這種觀點認為人的能力來自于對知識的運用,如果讓智能體獲得應用人類知識的機會,那么智能體就可以代替人類解決問題。
其實這個思路跟今天的機器訓練有點像,但區別在于當時對大數據的理解與今天完全不一樣。在缺乏云計算等基礎條件的情況下,當時的研究人員想出了另一個“劍走偏鋒”的主意:要不咱們干脆把所有人類的知識都手動錄入吧?
這個聽起來有點“愚公移山”精神的計劃居然真的被付諸實踐了。1984年,美國微電子與計算機技術公司開啟了這場預計手動上傳并編碼數百萬條技術的宏偉項目,該項目被稱為Cyc。
Cyc是對encyclopedia,即“百科全書”一詞的簡寫。項目的研究人員認為,人類的百科全書雖然叫“全書”,但記載的恰恰是那些嘗試之外的“冷知識”(因為常識一般人早就知道了),Cyc項目希望記錄的是那些給機器準備的,貨真價實的常識。
于是一場漫長的旅行開始了。從1984年啟動,到1994年Cyc獨立成為公司,再到之后公布開源平臺等等。33年過去了,Cyc雖然不溫不火,也早已不是人工智能領域的主角,但他一直存在著……甚至手動輸入數據這件事也在堅持。
根據維基百科,Cyc系統已經包含了320萬條人類定義的斷言,涉及30萬個概念,并且建造還在持續。
這么夸張而漫長的項目能夠啟動,跟1984年的美國人工智能熱是分不開的。當時前中情局副局長博比·英曼上將等人正在主持人工智能和電子信息領域的“軍備競賽”。假想敵就是日本提出的“第五代計算機”項目。加上當時各種各樣的本體庫、知識庫建設是社會熱點,這個超越人類想象的宏大計劃才在多種條件支持下成功上馬。
更大的背景,是1984年里根正式批準啟動了“星球大戰”計劃。在各種各樣科幻到炸裂的項目面前,Cyc可能還顯得有點靠譜呢……
Cyc的價值何在?
比起來關于八十年代的八卦,我們更加在意的可能是這個打包人類所有知識的人工智能計劃到底是怎么運作的?有是否能有些用處?
其實Cyc真不是一個特別復雜的系統,它主要由兩個部分構成,一是作為數據載體的多語境知識庫,二是系統本身的推理引擎。
它的運作基礎也很簡單,就是邏輯推理。首先它會載入各種各樣的知識和斷言。比如“樹是一種植物”、“植物都是會死的”,根據這些斷言它就能自己推理出“樹是會死的”這個結論。
一句話解釋一下,Cyc系統處理的是人類知識系統中的術語、關系和規則。
雖然上面舉的例子有點簡單,但這套系統的邏輯基本已經被證明是可行的(要不然也不會建了30多年)。人工智能知識論的代表人物,1994年圖靈獎獲得者愛德華·費根鮑姆就曾經認為:“Cyc是世界上最大的知識庫,也是技術論的最佳代表”。這在當時的環境條件下是有一定道理的。
說到應用層面,Cyc系統作為一套通用型本體庫,可以幫助垂直領域的本體庫快速建立。比如醫藥、金融、企業級服務領域都需要知識結構體系來解決大量問題。
Cyc本身也被預估為一套專家體系,可以解決通用世界中的復雜問題。比如說Cyc衍生過一套恐怖主義知識庫,就是通過載入的信息,推理出包括成員、領袖、贊助者、設施、地點、經費等等類目的恐怖組織數據網絡。確實提供了一些難以替代的價值。
其次,Cyc也可以開源其知識庫體系,幫助其他智能體訓練和成長。
但以上所有解決的基本都是小問題。Cyc真正能被國家系統看重的愿景,是通過知識的不斷輸入,從量變引發質變。在某個奇點到來之后,Cyc解決問題的能力將呈現幾何級增長,達到了解人類一切知識的“神一樣”的存在。
但這個目標同時也是Cyc最大的問題——到底要等到什么時候呢??
飽受詬病的史詩級計劃
Cyc項目有很多美譽,但絕不會多于對他的詬病。所以這個史詩級的項目,又被稱為人工智能歷史上最受爭議的項目。
雖然還隔幾年有條新聞爆出來,并且其公司也開始了企業服務等收費項目,但事實上曾經叱咤一時的Cyc已經被世界遺忘了。
歸納一下,這個項目在深度學習統治世界的今天已經有四大難以彌補的問題:
1、缺乏效率:想想2017年,還在堅持手動添加所有知識到智能系統里是多么了不起的一件事!但無論說它是堅持自我,還是復古主義審美,這件事的效率都太低了。有人估算過Cyc真正達到預期的知識存儲量可能還要等300多年…….
2、缺乏精準性:Cyc這套理論其實也有很多核心漏洞。比如對很多知識的解釋難以令人滿意,尤其在形容具體的實物很難區分外觀、材質、使用功能的差別;再比如由于效率太差,Cyc難以跟上知識時代的變化,經常保留幾十年前的知識水平;Cyc也難以處理復雜語言環境下的知識聯系,畢竟它的信息接收與處理思路還是比較古老的。
3、缺乏標準:在輸出端,Cyc最嚴重的問題是推理出的結果缺乏標準化判斷體系。沒有類似深度學習的監督機制,Cyc說的對與不對都無從判斷。這給其應用場景帶來了巨大的尷尬。
4、缺乏應用能力:前文討論的Cyc價值,很多是依托應用產品開發人員與垂直行業人才來完成。但這個項目確實太不主流了,如今已經很少有人才和企業愿意嘗試從Cyc展開自己的事業。數十年間,Cyc的應用度一直不高。總體來看若干年中的Cyc應用案例,都是表征價值大于實際價值。
這個目標打包一切人類知識的人工智能計劃,一方面已經遠離塵囂,一方面確實還堅強的活著。如果做個擬人化,Cyc項目讓我聯想到這樣一個故事:一位叱咤江湖的武林門派掌門人,在巔峰時決定閉關修煉,參習絕世武功。在他閉關三十余年的時光里,江湖上風起云涌,甚至連他的門派都被人剿滅了。
這位武林奇人,就這么繼續隱遁山林,雖然世人已經把他遺忘,但如果一旦有他神功大成的那一天……后邊自己腦補吧,真誠希望會有那一天。
1.砍柴網遵循行業規范,任何轉載的稿件都會明確標注作者和來源;2.砍柴網的原創文章,請轉載時務必注明文章作者和"來源:砍柴網",不尊重原創的行為砍柴網或將追究責任;3.作者投稿可能會經砍柴網編輯修改或補充。