熟女熟妇伦av网站,激情啪啪精品一区二区

導(dǎo)讀隨著OpenAI CEO奧特曼回歸，宮斗大戲告一段落，但仍留下了許多未接的謎題。其中最為關(guān)鍵的，就是當(dāng)初奧特曼為何會被董事會解雇。昨日，有媒體透露，就在奧特曼被開除四天前

昨天，有媒體透露，就在奧特曼被解雇前四天，多名研究人員致信董事會，警告一項強大的人工智能發(fā)現(xiàn)（Q*）可能威脅全人類。

圓通老板管不住小舅子套利的手

《梅根》劇照

OpenAI CTO Mira Murati 此前在給員工的內(nèi)部信中提到了一個代號為“Q*”的項目。據(jù)她說，該項目是“董事會對奧特曼不滿的眾多因素之一”。

據(jù)不少媒體猜測，Q*極大地加速了OpenAI對AGI的實施，但Altman可能還沒有向董事會詳細透露Q*的進展程度。這也符合董事會在解雇奧特曼時所說的話：“在與董事會溝通時并不總是坦誠相待?！?/p>

就在被解雇之前，奧特曼在一次公開活動中說道：

“在 OpenAI 的歷史上，我們實現(xiàn)了 4 項突破，最近一次是在過去幾周內(nèi)。當(dāng)我們揭開無知的面紗并推動發(fā)現(xiàn)前沿前進時，我一直在房間里?！?/p>

圓通老板管不住小舅子套利的手

所謂第四個突破可能指的是Q*項目。

Q*是什么？

Q* 發(fā)音為 Q 星。目前，OpenAI 尚未泄露有關(guān) Q* 的詳細信息。

據(jù)一些業(yè)內(nèi)人士推測，它可能是機器學(xué)習(xí)算法Q-Learning（Q-learning）的代名詞。它可能是OpenAI借助Q-learning算法創(chuàng)建的新模型的代號，也可能是相關(guān)項目的名稱。

科技博客PC Guide指出，OpenAI使用的Q*很可能指的是貝爾曼方程中的最優(yōu)值函數(shù)。 Q*可能意味著OpenAI已經(jīng)找到或接近效率優(yōu)化算法的最優(yōu)解。

天風(fēng)證券分析師孔融表示：

圓通老板管不住小舅子套利的手

Q-learning是一種基于強化學(xué)習(xí)的算法，用于解決馬爾可夫決策過程中的最優(yōu)控制問題。其目標(biāo)是讓智能體通過學(xué)習(xí)最優(yōu)策略，在未知環(huán)境中做出最佳選擇。

Q學(xué)習(xí)根據(jù)貝爾曼方程更新狀態(tài)-動作對應(yīng)的Q值，逼近最優(yōu)值函數(shù)。代理與環(huán)境交互并觀察新的狀態(tài)和獎勵，以更新執(zhí)行每個動作的 Q 值。

所謂貝爾曼方程，又稱動態(tài)規(guī)劃方程，是指數(shù)人理查德·貝爾曼提出的解決復(fù)雜多階段問題的公式。通過求解該方程，可以找到最優(yōu)價值函數(shù)和最優(yōu)策略。

運行算法的人（或計算機）可以輸入一個目標(biāo)函數(shù)，例如“最小化旅行時間、最小化成本、最大化利潤、最大化效用”等。然后算法決定采取什么最佳行動來實現(xiàn)期望的結(jié)果。

簡單來說，Q-learning可以通過探索所有可能的路徑來學(xué)習(xí)達到預(yù)期獎勵的最短路徑（最短路線），通過試錯找到更優(yōu)化的路徑，并隨著時間的推移達到優(yōu)化狀態(tài)，每次都做出更好的決策。

據(jù)媒體報道，在奧特曼被解雇之前，OpenAI對Q*進行了內(nèi)部演示，表明Q*可以解決小學(xué)水平的數(shù)學(xué)問題。

雖然完成小學(xué)數(shù)學(xué)題聽起來可能并不出色，但需要強調(diào)的是，包括 GPT-4 在內(nèi)的世界上最先進的大型語言模型通常更擅長基于語言的任務(wù)，即使在面臨加減乘除時也是如此。分配。基礎(chǔ)數(shù)學(xué)中存在錯誤。

如果像報道的那樣，Q*有能力處理數(shù)學(xué)問題并給出明確的答案，即使只是小學(xué)數(shù)學(xué)，那也將代表著巨大的飛躍。基礎(chǔ)數(shù)學(xué)能力或許意味著堪比人類智能的推理能力，也意味著OpenAI朝著AGI目標(biāo)邁出了一大步。

此外，有網(wǎng)友猜測，Q*背后的模型可能已經(jīng)具備獨立學(xué)習(xí)和自我完善的能力，或者可能能夠通過評估其行為的長期后果，在廣泛的場景中做出復(fù)雜的決策，并且可能有輕微的自我意識。。

最樂觀或者最可怕的假設(shè)是OpenAI已經(jīng)完成了構(gòu)建AGI的基礎(chǔ)工作。

圓通老板管不住小舅子套利的手

這聽起來很離譜，但這可能是真的。

就在一個月前，《華爾街日報》轉(zhuǎn)載了《麻省理工科技評論》對 OpenAI 首席科學(xué)家 Ilya Sutskever 的獨家專訪，后者當(dāng)時表示，ChatGPT 可能已經(jīng)有了意識。

圓通老板管不住小舅子套利的手

Q*的后續(xù)影響是什么？毀滅人類？

目前，OpenAI官方給出的回應(yīng)是，奧特曼的解雇與公司的研究進展無關(guān)。

但依然阻止不了網(wǎng)友們的瘋狂??猜想和陰謀論。

一位Reddit網(wǎng)友表示，對于AI世界來說，Q*的出現(xiàn)可能就像一個人試圖敲石頭生火。敲了幾年，也沒有結(jié)果。結(jié)果上周石頭突然擦出了火花。

圓通老板管不住小舅子套利的手

另一位 Reddit 用戶已經(jīng)開始想象 AGI 誕生后的場景：

人工智能開始發(fā)明事物，打破互聯(lián)網(wǎng)上的所有加密，編寫人類數(shù)學(xué)能力無法理解的程序……

圓通老板管不住小舅子套利的手

不過，理性思考，AGI大概率不會這么快誕生。 Q*或許只是人類未來漫長探索之旅的開始。

據(jù)天風(fēng)證券分析師孔融觀察，OpenAI近期的招聘過程表明其正在進一步增強強化學(xué)習(xí)系統(tǒng)的決策能力。

OpenAI近期持續(xù)引入強化學(xué)習(xí)和決策算法研究人員。 2023年7月新引進的研究員Noam Brown，從事多步推理和多智能體交互方面的研究。

Noam Brown此前發(fā)表的作品將語言模型與規(guī)劃和強化學(xué)習(xí)算法相結(jié)合，極大地提高了AI在復(fù)雜策略游戲中的表現(xiàn)，并開發(fā)出了第一批在德州撲克無限注游戲中擊敗頂級玩家的AI。

OpenAI最近在5月份發(fā)布的研究也表明，調(diào)整訓(xùn)練方法和引入更大規(guī)模的監(jiān)督數(shù)據(jù)將顯著提高強化學(xué)習(xí)系統(tǒng)的數(shù)學(xué)推理能力。 OpenAI引入針對特定流程的強化學(xué)習(xí)監(jiān)督，進一步提高大型模型在數(shù)據(jù)推理和計算方面的準(zhǔn)確性。

孔融推測，強化學(xué)習(xí)和決策算法的進步可能會帶來Q*max模型能力的突破，而GPT4+強化學(xué)習(xí)和決策算法可能會實現(xiàn)更強的AI Agent能力。

本文來自微信公眾號“華爾街新聞”（ID：wallstreetcn），作者：常家?guī)洠?6氪經(jīng)授權(quán)發(fā)布。

奧特曼被開除四天前研究人員警告AI發(fā)現(xiàn)可能威脅全人類

猜你喜歡：

最新文章：