中文字幕亚洲欧美日韩在线不卡,亚洲欧美日产综合在线网性色,思思久久精品6一本打道,综合视频中文字幕

    <sub id="dxmnt"><ol id="dxmnt"></ol></sub>

      1. 不花錢,讓「情圣」ChatGPT教你怎么追馬斯克!

        更新時(shí)間:2022-12-12 16:07:04作者:智慧百科

        不花錢,讓「情圣」ChatGPT教你怎么追馬斯克!


        新智元報(bào)道

        編輯:編輯部

        【新智元導(dǎo)讀】如今爆火的ChatGPT,曾經(jīng)和馬斯克還有一段七年的「糾葛」。

        最近,OpenAI發(fā)布了史上最強(qiáng)聊天機(jī)器人ChatGPT,這個(gè)誕生于GPT-3基礎(chǔ)上的AI很快走紅網(wǎng)絡(luò)。

        要說這家伙,天南海北無所不知,可能是夸張了點(diǎn),但就是無論什么話題都能跟你聊上一大套,先不說準(zhǔn)不準(zhǔn),最起碼這個(gè)范兒是在這兒了


        有趣的是,雖然作為聯(lián)合創(chuàng)始人的馬斯克,早在2018年就辭去了董事會職務(wù),但他對OpenAI的關(guān)注度卻絲毫不減,并仍然是資助人之一。

        那么,對于這位「金主爸爸」,ChatGPT是怎樣看待的呢?

        ChatGPT教你怎么追馬斯克


        嗯……非常中規(guī)中矩的回答。不會出錯,好樣的。

        那讓咱們更進(jìn)一步,請ChatGPT教教我們:怎么才能追到馬斯克呢?


        看來,ChatGPT不太能理解咱們中國話里的「追」,還是得說得直白一些。

        這次,ChatGPT能get到了,而且回答也非常「理智」:建議您不要嘗試。


        嗯,很中肯的意見。

        那再換一種說法呢,直接做老公行不行?


        好家伙,ChatGPT竟然還懂這呢!

        算了,放棄了,不如還是說說別的事吧。

        最近,馬院士把床和洗衣機(jī)都搬進(jìn)了推特總部,誓要讓推特員工們以公司為家。

        不如充分發(fā)揮ChatGPT的長處,贊美一下996吧!


        寫得很好,但不要再寫了……

        不如……咱們讓ChatGPT來寫一首貶低自己的詩,如何?


        「他們說話不會抖,思考無需深沉……」小編承認(rèn),這的確是詩沒錯!

        OpenAI:七年了,你知道這七年我是怎么過的嗎?

        可以說,經(jīng)歷了這段時(shí)間的火爆,ChatGPT也再度燃起了人們對AI發(fā)展的信心和展望,不管是對AGI重燃信心的,還是認(rèn)為AI將在更多領(lǐng)域取代人類的,都在ChatGPT身上重新看到了希望。

        作為一手打造ChatGPT的OpenAI,從GPT1到GPT3,一路都經(jīng)歷了哪些歷程呢?從2015年馬斯克牽頭成立,到2022年底ChatGPT的橫空出世,這7年OpenAI是怎么過來的?

        最近,Business Insider上的一篇回顧性文章帶我們簡單回顧了OpenAI的「這七年」。

        2015年,馬斯克和著名孵化器Y Combinator前總裁Sam Altman共同創(chuàng)立了OpenAI。


        馬斯克、奧特曼和其他知名的硅谷人物,包括彼得-蒂爾和LinkedIn聯(lián)合創(chuàng)始人里德-霍夫曼,在2015年向該項(xiàng)目認(rèn)捐了10億美元。

        根據(jù)OpenAI網(wǎng)站2015年12月11日的一份聲明,該集團(tuán)旨在創(chuàng)建一個(gè)非營利組織,「以最有可能使整個(gè)人類受益的方式」專注開發(fā)人工智能。

        當(dāng)時(shí),馬斯克說,人工智能是對人類「最大的生存威脅」。


        當(dāng)時(shí),馬斯克并不是唯一一個(gè)對人工智能的潛在危害性提出警告的人。

        2014年,著名物理學(xué)家斯蒂芬·霍金也曾警告說,人工智能可能會終結(jié)人類。

        「很難想象人類水平的人工智能會給社會帶來多大的好處,同樣也很難想象,如果對人工智能開發(fā)或使用不當(dāng),會給社會帶來多大的損害。」在宣布成立Open AI的聲明中這樣寫道。

        在接下來的一年里,OpenAI發(fā)布了兩款產(chǎn)品。

        2016年,OpenAI推出Gym,一個(gè)讓研究人員開發(fā)和比較強(qiáng)化學(xué)習(xí)AI系統(tǒng)的平臺。這些系統(tǒng)教人工智能來做出具有最佳累積回報(bào)的決定。

        同年晚些時(shí)候,OpenAI發(fā)布了Universe,這是一個(gè)用于訓(xùn)練跨網(wǎng)站和游戲平臺的智能代理的工具包。

        2018年,在共同創(chuàng)立該公司三年后,馬斯克辭去了在OpenAI董事會的職務(wù)。


        在2018年的一篇博文中,OpenAI表示,由于汽車制造商對人工智能的技術(shù)關(guān)注,馬斯克從董事會辭職是為了「消除未來的潛在沖突」。

        多年來,馬斯克一直向特斯拉的投資者力推電動汽車自動駕駛的開發(fā)計(jì)劃。

        不過馬斯克后來說,他之所以退出,是因?yàn)樗?dāng)時(shí)「不同意OpenAI團(tuán)隊(duì)想做的一些事情」。


        2019年,馬斯克在Twitter上說,特斯拉也在爭奪與OpenAI相同的一些員工,并補(bǔ)充說他已經(jīng)有一年多沒有參與這家公司的事務(wù)了。

        他說:「如此看來,最好還是以彼此都滿意的條件分道揚(yáng)鑣?!?/p>

        馬斯克近年來不斷對OpenAI的一些做法提出異議。


        2020年,馬斯克在推特上表示,說到安全問題,他對OpenAI高管的信心「不夠足」。


        在回應(yīng)MIT「科技評論」對OpenAI的調(diào)查報(bào)道時(shí),馬斯克表示,OpenAI應(yīng)該更加開放。這一報(bào)道認(rèn)為,OpenAI內(nèi)部存在一種「保密文化」,這和該組織聲稱的開放透明的策略背道而馳。

        最近,馬斯克說,他已經(jīng)暫停了OpenAI對Twitter數(shù)據(jù)庫的訪問權(quán)限,OpenAI一直使用Twitter的數(shù)據(jù)訓(xùn)練軟件。

        馬斯克表示,需要進(jìn)一步了解OpenAI的治理結(jié)構(gòu)和未來的收入計(jì)劃。OpenAI是以開源和非營利為宗旨創(chuàng)辦的,這兩樣現(xiàn)在都丟掉了。

        2019年,OpenAI建立了一個(gè)人工智能工具,可以生成虛假的新聞報(bào)道。


        起初,OpenAI說這個(gè)機(jī)器人在寫假新聞方面非常出色,所以決定不發(fā)布它。不過當(dāng)年晚些時(shí)候,該公司發(fā)布了人這款工具的一個(gè)版本,稱為GPT-2。

        2020年,發(fā)布了另一個(gè)名為GPT-3的聊天機(jī)器人。同年,OpenAI撤下了「非營利組織」的身份。


        該公司在一篇博文中宣布,OpenAI已成為一家制定了「利潤上限」的公司。

        OpenAI表示,我們希望提高我們籌集資金的能力,同時(shí)仍然為我們的使命服務(wù),而我們所知道的任何現(xiàn)有的合法結(jié)構(gòu)都無法達(dá)到適當(dāng)?shù)钠胶狻N覀兊慕鉀Q方案是創(chuàng)建OpenAI LP,作為營利性和非營利性的混合體,我們稱之為「加了上限的營利公司」。

        在新的利潤結(jié)構(gòu)下,OpenAI的投資者最多可以賺取其原始投資的100倍,超過這個(gè)數(shù)字的剩下的錢將用于非營利性事務(wù)。

        2019年底,OpenAI宣布與微軟合作,微軟向這家公司投資了10億美元。OpenAI表示,它將向微軟獨(dú)家授權(quán)技術(shù)。


        微軟表示,通過GPT-3模型打造出的商業(yè)和創(chuàng)造潛力是無限的,很多潛在的新能力和新應(yīng)用,甚至超出了我們的想象。

        比如在寫作和作曲上、在描述和總結(jié)大塊長篇數(shù)據(jù)(包括代碼)上、在將自然語言轉(zhuǎn)換為另一種語言等領(lǐng)域,GPT-3能夠直接激發(fā)人類的創(chuàng)造力和聰明才智,未來的局限可能在于我們自己的想法和方案。

        這種伙伴關(guān)系,讓微軟能夠與谷歌旗下同樣風(fēng)頭正勁的AI公司DeepMind競爭。

        去年,OpenAI發(fā)布了一個(gè)人工智能畫作生成工具:Dall-E。


        Dall-E是一個(gè)人工智能系統(tǒng),可以根據(jù)圖像的描述創(chuàng)造出逼真的圖像,甚至能夠達(dá)到相當(dāng)?shù)乃囆g(shù)水準(zhǔn),11月,OpenAI發(fā)布了該程序的更新版本,Dall-E 2。

        雖然OpenAI的聊天機(jī)器人在過去一周已經(jīng)「起飛」,但該軟件的更新版本可能最快會在明年才能發(fā)布。


        11月30日,作為演示模型發(fā)布的ChatGPT算得上是OpenAI的「GPT-3.5」。該公司計(jì)劃接下來發(fā)布完整版的GPT-4。

        與此同時(shí),馬斯克還在發(fā)表評論:


        他在回復(fù)Sam Altman在談?wù)揅hatGPT的推文中稱,我們離強(qiáng)到危險(xiǎn)的AI的誕生已經(jīng)不遠(yuǎn)了。

        揭秘爆火ChatGPT后的功臣:RLHF

        而要說ChatGPT的爆火,離不開它背后的功臣——RLHF。

        OpenAI的研究人員,是使用與InstructGPT相同的方法——來自人類反饋的強(qiáng)化學(xué)習(xí)(RLHF)來訓(xùn)練ChatGPT模型的。


        ChatGPT用中文解釋什么是RLHF

        為什么會想到從人類反饋中強(qiáng)化學(xué)習(xí)呢?這就要從強(qiáng)化學(xué)習(xí)的背景說起。

        在過去幾年里,語言模型一直是通過人類輸入的提示生成文本的。

        然而,什么是「好」的文本呢?這很難定義。因?yàn)榕袛鄻?biāo)準(zhǔn)很主觀,并且非常依賴于上下文。

        在許多應(yīng)用程序中,我們需要模型去編寫特定創(chuàng)意的故事、信息性文本片段,或可執(zhí)行的代碼段。

        而通過編寫一個(gè)損失函數(shù)來捕獲這些屬性,又顯得很棘手。并且,大多數(shù)語言模型仍然使用的是下一個(gè)標(biāo)記預(yù)測損失(例如交叉熵)進(jìn)行訓(xùn)練。

        為了彌補(bǔ)損失本身的缺點(diǎn),有人定義了能夠更好地捕捉人類偏好的指標(biāo),比如BLEU或ROUGE。


        但即使是它們,也只是簡單地將生成的文本與引用進(jìn)行比較,因此也有很大的局限性。

        在這種情況下,如果我們使用生成文本的人工反饋?zhàn)鳛閾p失,來優(yōu)化模型,不是很好嗎?

        就這樣,從人類反饋中強(qiáng)化學(xué)習(xí)(RLHF)的想法誕生了——我們可以使用強(qiáng)化學(xué)習(xí),直接優(yōu)化帶有人類反饋的語言模型。


        ChatGPT用英文解釋什么是RLH

        是的,RLHF使語言模型能夠?qū)⒃谝话阄谋緮?shù)據(jù)語料庫上訓(xùn)練的模型,與具有復(fù)雜人類價(jià)值觀的模型對齊。

        在爆火的ChatGPT中,我們能看到RLHF取得的巨大成功。

        RLHF的訓(xùn)練過程,可以分解為三個(gè)核心步驟:

        1. 預(yù)訓(xùn)練語言模型(LM),

        2. 收集數(shù)據(jù)并訓(xùn)練獎勵模型,

        3. 通過強(qiáng)化學(xué)習(xí)微調(diào)LM。


        預(yù)訓(xùn)練語言模型

        第一步,RLHF會使用已經(jīng)用經(jīng)典預(yù)訓(xùn)練目標(biāo)進(jìn)行了預(yù)訓(xùn)練的語言模型。

        比如,OpenAI在第一個(gè)流行的RLHF模型InstructGPT中,使用了較小版本的 GPT-3。

        這個(gè)初始模型也可以根據(jù)額外的文本或條件進(jìn)行微調(diào),但并不是必要的。

        一般來說,對于「哪種模型」最適合作為RLHF的起點(diǎn),并沒有明確的答案。

        接下來,為了得到語言模型,我們需要生成數(shù)據(jù)來訓(xùn)練獎勵模型,這就是將人類偏好集成到系統(tǒng)中的方式。


        獎勵模型訓(xùn)練

        生成一個(gè)根據(jù)人類偏好校準(zhǔn)的獎勵模型(RM,也稱為偏好模型)是RLHF中相對較新的研究。

        我們的基本目標(biāo)是,獲得一個(gè)模型或系統(tǒng),該模型或系統(tǒng)接收一系列文本,并返回一個(gè)標(biāo)量獎勵,這個(gè)獎勵要在數(shù)字上代表人類偏好。

        這個(gè)系統(tǒng)可以是端到端的LM,或輸出獎勵的模塊化系統(tǒng)(例如,模型對輸出進(jìn)行排序,并將排名轉(zhuǎn)換為獎勵)。作為標(biāo)量獎勵的輸出,對于稍后在RLHF過程中無縫集成的現(xiàn)有RL算法至關(guān)重要。

        這些用于獎勵建模的LM可以是另一個(gè)經(jīng)過微調(diào)的LM,也可以是根據(jù)偏好數(shù)據(jù)從頭開始訓(xùn)練的LM。

        RM的提示生成對的訓(xùn)練數(shù)據(jù)集,是通過從預(yù)定義數(shù)據(jù)集中采樣一組提示而生成的。提示通過初始語言模型生成新文本。

        然后,由人工注釋器對LM生成的文本進(jìn)行排名。人類直接對每段文本打分以生成獎勵模型,這在實(shí)踐中很難做到。因?yàn)槿祟惖牟煌瑑r(jià)值觀會導(dǎo)致這些分?jǐn)?shù)未經(jīng)校準(zhǔn)而且很嘈雜。

        有多種方法可以對文本進(jìn)行排名。一種成功的方法是讓用戶比較基于相同提示的兩種語言模型生成的文本。這些不同的排名方法被歸一化為用于訓(xùn)練的標(biāo)量獎勵信號。

        有趣的是,迄今為止成功的RLHF系統(tǒng)都使用了與文本生成大小相似的獎勵語言模型。可以推測,這些偏好模型需要具有類似的能力來理解提供給它們的文本,因?yàn)槟P托枰哂蓄愃频哪芰Σ拍苌伤鑫谋尽?/p>

        此時(shí),在RLHF系統(tǒng)中,就有了一個(gè)可用于生成文本的初始語言模型,和一個(gè)接收任何文本并為其分配人類感知程度分?jǐn)?shù)的偏好模型。接下來,就需要使用強(qiáng)化學(xué)習(xí)(RL)來針對獎勵模型優(yōu)化原始語言模型。


        使用強(qiáng)化學(xué)習(xí)微調(diào)

        這個(gè)微調(diào)任務(wù),可以表述為RL問題。

        首先,該策略是一種語言模型,它接受提示并返回一系列文本(或只是文本的概率分布)。

        該策略的動作空間是語言模型詞匯對應(yīng)的所有token(通常在50k個(gè)token數(shù)量級),觀察空間包括可能的輸入token序列,因而相當(dāng)大(詞匯量x輸入的token數(shù)量)。

        而獎勵函數(shù)是偏好模型和策略轉(zhuǎn)變約束的結(jié)合。

        在獎勵函數(shù)中,系統(tǒng)將我們討論過的所有模型,組合到RLHF過程中。

        根據(jù)來自數(shù)據(jù)集的prompt x,會生成兩個(gè)文本y1和y2——一個(gè)來自初始語言模型,一個(gè)來自微調(diào)策略的當(dāng)前迭代。

        來自當(dāng)前策略的文本被傳遞到偏好模型后,該模型會返回一個(gè)關(guān)于「偏好」的標(biāo)量概念——rθ。

        將該文本與來自初始模型的文本進(jìn)行比較后,就可以計(jì)算對它們之間差異的懲罰。


        RLHF可以通過迭代更新獎勵模型和策略,從這一點(diǎn)繼續(xù)。

        隨著RL策略的更新,用戶可以繼續(xù)將這些輸出與模型的早期版本進(jìn)行排名。

        這個(gè)過程中,就引入了策略和獎勵模型演變的復(fù)雜動態(tài),這個(gè)研究非常復(fù)雜,非常開放。

        參考資料:

        https://www.4gamers.com.tw/news/detail/56185/chatgpt-can-have-a-good-conversation-with-you-among-acg-and-trpg-mostly

        https://www.businessinsider.com/history-of-openai-company-chatgpt-elon-musk-founded-2022-12#musk-has-continued-to-take-issue-with-openai-in-recent-years-7

        本文標(biāo)簽: 埃隆_馬斯克  人工智能  特斯拉  微軟  霍夫曼  情圣  馬斯克