OpenAI 放大招“對(duì)打”谷歌 Gemini：全力籌備多模態(tài)大模型，并發(fā)布新指令語(yǔ)言模型

發(fā)布時(shí)間：2023-09-21 15:26:31

面對(duì)挑戰(zhàn)，OpenAI 連續(xù)放大招，除了發(fā)布新指令語(yǔ)言模型 GPT-3.5-turbo-instruct，還計(jì)劃推出多模態(tài)大模型 GPT-Vision 與 Gobi。據(jù)一位未公開身份的知情人士透露，OpenAI 在積極將多模態(tài)功能（類似于 Gemini 將要提供的功能）納入 GPT-4。

新語(yǔ)言模型 InstructGPT-3.5

近日，OpenAI 推出 GPT-3.5-turbo-instruct，這是一款新的指令語(yǔ)言模型，效率可以與聊天優(yōu)化的 GPT-3.5 Turbo 模型相媲美。

指令模型屬于大語(yǔ)言模型的一種，會(huì)在使用一大量數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練之后，再通過人類反饋（RLHF）做進(jìn)一步完善。在此過程中，會(huì)由人類負(fù)責(zé)評(píng)估模型根據(jù)用戶提示詞生成的輸出，對(duì)結(jié)果做改進(jìn)以達(dá)成目標(biāo)效果，再將更新后的素材用于進(jìn)一步訓(xùn)練。

因此，指令模型能夠更好地理解并響應(yīng)人類的查詢預(yù)期，減少錯(cuò)誤并緩解有害內(nèi)容的傳播。從 OpenAI 的測(cè)試結(jié)果來看，盡管體量?jī)H為后者的百分之一，但人們明顯更喜歡擁有 13 億參數(shù)的 InstructGPT 模型，而非擁有 1750 億參數(shù)的 GPT 模型。

據(jù)了解，GPT-3.5-turbo-instruct 的成本與性能同其他具有 4K 上下文窗口的 GPT-3.5 模型相同，使用的訓(xùn)練數(shù)據(jù)截止于 2021 年 9 月。

GPT-3.5-turbo-instruct 將取代一系列現(xiàn)有 Instruct 模型，外加 text-ada-001、text-babbage-001 和 text-curie-001。這三款 text-davinci 模型將于 2024 年 1 月 4 日正式停用。

OpenAI 表示，GPT-3.5-turbo-instruct 的訓(xùn)練方式與之前的其他 Instruct 模型類似。該公司并未提供新 Instruct 模型的細(xì)節(jié)或基準(zhǔn)，而是參考了 2022 年 1 月發(fā)布的 InstructGPT，即 GPT-3.5 模型的實(shí)現(xiàn)基礎(chǔ)。

OpenAI 稱，GPT-4 擁有超越 GPT-3.5 的復(fù)雜指令遵循能力，生成的結(jié)果也比 GPT-3.5 質(zhì)量更高；但 GPT-3.5 也有自己的獨(dú)特優(yōu)勢(shì)，例如速度更快且運(yùn)行成本更低。GPT-3.5-turbo-instruct 并非聊天模型，這一點(diǎn)與原始 GPT-3.5 有所區(qū)別。具體來講，與之前的聊天應(yīng)用模型不同，GPT-3.5-turbo-instruct 主要針對(duì)直接問答或文本補(bǔ)全進(jìn)行優(yōu)化。

速度方面，OpenAI 稱 GPT-3.5-turbo-instruct 速度與 GPT-3.5-turbo 基本相當(dāng)。

下圖為 OpenAI 設(shè)計(jì)的 Instruct 指令模型與 Chat 聊天模型之間的區(qū)別。這種固有差異自然會(huì)對(duì)提示詞的具體編寫產(chǎn)生影響。

OpenAI 負(fù)責(zé)開發(fā)者關(guān)系的 Logan Kilpatrick 稱，這套新的指令模型屬于向 GPT-3.5-turbo 遷移當(dāng)中的過渡性產(chǎn)物。他表示其并不屬于“長(zhǎng)期解決方案”。已經(jīng)在使用微調(diào)模型的用戶，需要根據(jù)新的模型版本做重新微調(diào)。目前微調(diào)功能只適用于 GPT-3.5，GPT-4 的微調(diào)選項(xiàng)計(jì)劃于今年晚些時(shí)候發(fā)布。

多模態(tài)大模型 GPT-Vision 與 Gobi

除了 GPT-3.5-turbo-instruct，OpenAI 近日還計(jì)劃發(fā)布多模態(tài)大模型 GPT-Vision，以及一個(gè)代號(hào)為“Gobi”的更強(qiáng)大的多模態(tài)大模型。

據(jù)悉，GPT-Vision 在 3 月份的 GPT-4 發(fā)布期間首次預(yù)覽，是 OpenAI 融合文本和視覺領(lǐng)域的雄心勃勃的嘗試。雖然該功能最初實(shí)際用例僅限于 Be My Eyes 公司，這家公司通過其移動(dòng)應(yīng)用幫助視力障礙或失明用戶進(jìn)行日常活動(dòng)。

GPT-Vision 有潛力重新定義創(chuàng)意內(nèi)容生成的界限。想象一下使用簡(jiǎn)單的文本提示生成獨(dú)特的藝術(shù)品、徽標(biāo)或模因。或者考慮一下對(duì)有視覺障礙的用戶的好處，他們可以通過自然語(yǔ)言查詢與視覺內(nèi)容交互并理解視覺內(nèi)容。該技術(shù)還有望徹底改變視覺學(xué)習(xí)和教育，使用戶能夠通過視覺示例學(xué)習(xí)新概念。

如今，OpenAI 正準(zhǔn)備將這項(xiàng)名為 GPT-Vision 的功能開放給更廣泛的市場(chǎng)受眾。

此外，據(jù) The Information 報(bào)道，OpenAI 即將發(fā)布代號(hào)為“Gobi”的下一代多模態(tài)大語(yǔ)言模型，希望借此擊敗谷歌并繼續(xù)保持市場(chǎng)領(lǐng)先地位。目前，Gobi 的訓(xùn)練還沒有開始，有評(píng)論認(rèn)為其有機(jī)會(huì)成為 GPT-5。

報(bào)道稱，OpenAI 之所以耗費(fèi)大量時(shí)間來推出 Gobi，主要是擔(dān)心新的視覺功能會(huì)被壞人利用，例如通過自動(dòng)解決驗(yàn)證碼來冒充人類，或者通過人臉識(shí)別追蹤人們。但現(xiàn)在，OpenAI 的工程師們似乎想到辦法來緩解這個(gè)安全問題了。

OpenAI CEO：GPT-5 尚未出現(xiàn)，計(jì)劃將多模態(tài)功能納入 GPT-4

據(jù)了解，多模態(tài)大語(yǔ)言模型的本質(zhì)是一種先進(jìn) AI 系統(tǒng)，能夠理解和處理多種數(shù)據(jù)形式，包括文本和圖像。與主要處理文本內(nèi)容的傳統(tǒng)語(yǔ)言模型不同，多模態(tài)大語(yǔ)言模型能夠同時(shí)對(duì)文本加視覺類內(nèi)容進(jìn)行分析和生成。

也就是說，這類模型可以解釋圖像、理解上下文并生成包含文本和視覺輸入的響應(yīng)結(jié)果。多模態(tài)大模型還擁有極高的通用性，適用于從自然語(yǔ)言理解到圖像解釋的諸多應(yīng)用，借此提供更廣泛的信息處理能力。

報(bào)道指出，“這些模型能夠處理圖像和文本，例如通過查看用戶繪制的網(wǎng)站外觀草圖來生成網(wǎng)站構(gòu)建代碼，或者根據(jù)文本分析結(jié)果輸出可視化圖表。如此一來，普通用戶也能快速理解內(nèi)容含義，不必再向擁有技術(shù)背景的工程師們求助?！?/span>

OpenAI 首席執(zhí)行官 Sam Altman 在最近的采訪中表示，盡管 GPT-5 尚未出現(xiàn)，但他們正計(jì)劃對(duì) GPT-4 進(jìn)行各種增強(qiáng)。而開放多模態(tài)支持功能，也許就是這項(xiàng)計(jì)劃的一部分。

在上周接受《連線》采訪時(shí)，谷歌 CEO 桑達(dá)爾·皮查伊表達(dá)了他對(duì)于谷歌當(dāng)前 AI 江湖地位的信心，強(qiáng)調(diào)其仍掌握著技術(shù)領(lǐng)先優(yōu)勢(shì)、并在創(chuàng)新與責(zé)任方面求取平衡的審慎戰(zhàn)略。他也對(duì) OpenAI ChatGPT 的深遠(yuǎn)意義表示認(rèn)可，稱贊其擁有良好的產(chǎn)品-市場(chǎng)契合度、讓用戶對(duì) AI 技術(shù)做好了準(zhǔn)備。但他同時(shí)強(qiáng)調(diào)，谷歌在產(chǎn)品信任和負(fù)責(zé)態(tài)度方面會(huì)采取更加謹(jǐn)慎的立場(chǎng)。

上一篇：AI 大模型背后的驚人數(shù)字：?jiǎn)?ChatGPT 5 個(gè)問題，耗水 500 毫升？訓(xùn)練一次 GPT-3，碳排放量相當(dāng)于開車往返月球？

下一篇：耗時(shí)一年用戶從 0 增長(zhǎng)至 1400 萬，背后僅三名工程師，這家社交巨頭背后的技術(shù)棧是如何搭建的？