導(dǎo)航菜單

奧特曼被開除四天前研究人員警告AI發(fā)現(xiàn)可能威脅全人類

導(dǎo)讀 隨著OpenAI CEO奧特曼回歸,宮斗大戲告一段落,但仍留下了許多未接的謎題。其中最為關(guān)鍵的,就是當(dāng)初奧特曼為何會被董事會解雇。昨日,有媒體透露,就在奧特曼被開除四天前

昨天,有媒體透露,就在奧特曼被解雇前四天,多名研究人員致信董事會,警告一項強大的人工智能發(fā)現(xiàn)(Q*)可能威脅全人類。

圓通老板管不住小舅子套利的手

《梅根》劇照

OpenAI CTO Mira Murati 此前在給員工的內(nèi)部信中提到了一個代號為“Q*”的項目。 據(jù)她說,該項目是“董事會對奧特曼不滿的眾多因素之一”。

據(jù)不少媒體猜測,Q*極大地加速了OpenAI對AGI的實施,但Altman可能還沒有向董事會詳細透露Q*的進展程度。 這也符合董事會在解雇奧特曼時所說的話:“在與董事會溝通時并不總是坦誠相待?!?/p>

就在被解雇之前,奧特曼在一次公開活動中說道:

“在 OpenAI 的歷史上,我們實現(xiàn)了 4 項突破,最近一次是在過去幾周內(nèi)。當(dāng)我們揭開無知的面紗并推動發(fā)現(xiàn)前沿前進時,我一直在房間里?!?/p>

圓通老板管不住小舅子套利的手

所謂第四個突破可能指的是Q*項目。

Q*是什么?

Q*是什么?

Q* 發(fā)音為 Q 星。 目前,OpenAI 尚未泄露有關(guān) Q* 的詳細信息。

據(jù)一些業(yè)內(nèi)人士推測,它可能是機器學(xué)習(xí)算法Q-Learning(Q-learning)的代名詞。 它可能是OpenAI借助Q-learning算法創(chuàng)建的新模型的代號,也可能是相關(guān)項目的名稱。

科技博客PC Guide指出,OpenAI使用的Q*很可能指的是貝爾曼方程中的最優(yōu)值函數(shù)。 Q*可能意味著OpenAI已經(jīng)找到或接近效率優(yōu)化算法的最優(yōu)解。

天風(fēng)證券分析師孔融表示:

圓通老板管不住小舅子套利的手

Q-learning是一種基于強化學(xué)習(xí)的算法,用于解決馬爾可夫決策過程中的最優(yōu)控制問題。 其目標(biāo)是讓智能體通過學(xué)習(xí)最優(yōu)策略,在未知環(huán)境中做出最佳選擇。

Q學(xué)習(xí)根據(jù)貝爾曼方程更新狀態(tài)-動作對應(yīng)的Q值,逼近最優(yōu)值函數(shù)。 代理與環(huán)境交互并觀察新的狀態(tài)和獎勵,以更新執(zhí)行每個動作的 Q 值。

所謂貝爾曼方程,又稱動態(tài)規(guī)劃方程,是指數(shù)人理查德·貝爾曼提出的解決復(fù)雜多階段問題的公式。 通過求解該方程,可以找到最優(yōu)價值函數(shù)和最優(yōu)策略。

運行算法的人(或計算機)可以輸入一個目標(biāo)函數(shù),例如“最小化旅行時間、最小化成本、最大化利潤、最大化效用”等。然后算法決定采取什么最佳行動來實現(xiàn)期望的結(jié)果。

簡單來說,Q-learning可以通過探索所有可能的路徑來學(xué)習(xí)達到預(yù)期獎勵的最短路徑(最短路線),通過試錯找到更優(yōu)化的路徑,并隨著時間的推移達到優(yōu)化狀態(tài),每次都做出更好的決策。

據(jù)媒體報道,在奧特曼被解雇之前,OpenAI對Q*進行了內(nèi)部演示,表明Q*可以解決小學(xué)水平的數(shù)學(xué)問題。

雖然完成小學(xué)數(shù)學(xué)題聽起來可能并不出色,但需要強調(diào)的是,包括 GPT-4 在內(nèi)的世界上最先進的大型語言模型通常更擅長基于語言的任務(wù),即使在面臨加減乘除時也是如此。分配。 基礎(chǔ)數(shù)學(xué)中存在錯誤。

如果像報道的那樣,Q*有能力處理數(shù)學(xué)問題并給出明確的答案,即使只是小學(xué)數(shù)學(xué),那也將代表著巨大的飛躍。 基礎(chǔ)數(shù)學(xué)能力或許意味著堪比人類智能的推理能力,也意味著OpenAI朝著AGI目標(biāo)邁出了一大步。

此外,有網(wǎng)友猜測,Q*背后的模型可能已經(jīng)具備獨立學(xué)習(xí)和自我完善的能力,或者可能能夠通過評估其行為的長期后果,在廣泛的場景中做出復(fù)雜的決策,并且可能有輕微的自我意識。 。

最樂觀或者最可怕的假設(shè)是OpenAI已經(jīng)完成了構(gòu)建AGI的基礎(chǔ)工作。

圓通老板管不住小舅子套利的手

這聽起來很離譜,但這可能是真的。

就在一個月前,《華爾街日報》轉(zhuǎn)載了《麻省理工科技評論》對 OpenAI 首席科學(xué)家 Ilya Sutskever 的獨家專訪,后者當(dāng)時表示,ChatGPT 可能已經(jīng)有了意識。

圓通老板管不住小舅子套利的手

Q*的后續(xù)影響是什么? 毀滅人類?

目前,OpenAI官方給出的回應(yīng)是,奧特曼的解雇與公司的研究進展無關(guān)。

但依然阻止不了網(wǎng)友們的瘋狂??猜想和陰謀論。

一位Reddit網(wǎng)友表示,對于AI世界來說,Q*的出現(xiàn)可能就像一個人試圖敲石頭生火。 敲了幾年,也沒有結(jié)果。 結(jié)果上周石頭突然擦出了火花。

圓通老板管不住小舅子套利的手

另一位 Reddit 用戶已經(jīng)開始想象 AGI 誕生后的場景:

人工智能開始發(fā)明事物,打破互聯(lián)網(wǎng)上的所有加密,編寫人類數(shù)學(xué)能力無法理解的程序……

圓通老板管不住小舅子套利的手

圓通老板管不住小舅子套利的手

不過,理性思考,AGI大概率不會這么快誕生。 Q*或許只是人類未來漫長探索之旅的開始。

據(jù)天風(fēng)證券分析師孔融觀察,OpenAI近期的招聘過程表明其正在進一步增強強化學(xué)習(xí)系統(tǒng)的決策能力。

OpenAI近期持續(xù)引入強化學(xué)習(xí)和決策算法研究人員。 2023年7月新引進的研究員Noam Brown,從事多步推理和多智能體交互方面的研究。

Noam Brown此前發(fā)表的作品將語言模型與規(guī)劃和強化學(xué)習(xí)算法相結(jié)合,極大地提高了AI在復(fù)雜策略游戲中的表現(xiàn),并開發(fā)出了第一批在德州撲克無限注游戲中擊敗頂級玩家的AI。

OpenAI最近在5月份發(fā)布的研究也表明,調(diào)整訓(xùn)練方法和引入更大規(guī)模的監(jiān)督數(shù)據(jù)將顯著提高強化學(xué)習(xí)系統(tǒng)的數(shù)學(xué)推理能力。 OpenAI引入針對特定流程的強化學(xué)習(xí)監(jiān)督,進一步提高大型模型在數(shù)據(jù)推理和計算方面的準(zhǔn)確性。

孔融推測,強化學(xué)習(xí)和決策算法的進步可能會帶來Q*max模型能力的突破,而GPT4+強化學(xué)習(xí)和決策算法可能會實現(xiàn)更強的AI Agent能力。

本文來自微信公眾號“華爾街新聞”(ID:wallstreetcn),作者:常家?guī)洠?6氪經(jīng)授權(quán)發(fā)布。

免責(zé)聲明:本文由用戶上傳,如有侵權(quán)請聯(lián)系刪除!

猜你喜歡:

最新文章: