OpenAI 放大招“對(duì)打”谷歌 Gemini:全力籌備多模態(tài)大模型,并發(fā)布新指令語(yǔ)言模型
發(fā)布時(shí)間:2023-09-21 15:26:31
面對(duì)挑戰(zhàn),OpenAI 連續(xù)放大招,除了發(fā)布新指令語(yǔ)言模型 GPT-3.5-turbo-instruct,還計(jì)劃推出多模態(tài)大模型 GPT-Vision 與 Gobi。據(jù)一位未公開身份的知情人士透露,OpenAI 在積極將多模態(tài)功能(類似于 Gemini 將要提供的功能)納入 GPT-4。
新語(yǔ)言模型 InstructGPT-3.5
近日,OpenAI 推出 GPT-3.5-turbo-instruct,這是一款新的指令語(yǔ)言模型,效率可以與聊天優(yōu)化的 GPT-3.5 Turbo 模型相媲美。
指令模型屬于大語(yǔ)言模型的一種,會(huì)在使用一大量數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練之后,再通過人類反饋(RLHF)做進(jìn)一步完善。在此過程中,會(huì)由人類負(fù)責(zé)評(píng)估模型根據(jù)用戶提示詞生成的輸出,對(duì)結(jié)果做改進(jìn)以達(dá)成目標(biāo)效果,再將更新后的素材用于進(jìn)一步訓(xùn)練。
因此,指令模型能夠更好地理解并響應(yīng)人類的查詢預(yù)期,減少錯(cuò)誤并緩解有害內(nèi)容的傳播。從 OpenAI 的測(cè)試結(jié)果來看,盡管體量?jī)H為后者的百分之一,但人們明顯更喜歡擁有 13 億參數(shù)的 InstructGPT 模型,而非擁有 1750 億參數(shù)的 GPT 模型。
據(jù)了解,GPT-3.5-turbo-instruct 的成本與性能同其他具有 4K 上下文窗口的 GPT-3.5 模型相同,使用的訓(xùn)練數(shù)據(jù)截止于 2021 年 9 月。
GPT-3.5-turbo-instruct 將取代一系列現(xiàn)有 Instruct 模型,外加 text-ada-001、text-babbage-001 和 text-curie-001。這三款 text-davinci 模型將于 2024 年 1 月 4 日正式停用。
OpenAI 表示,GPT-3.5-turbo-instruct 的訓(xùn)練方式與之前的其他 Instruct 模型類似。該公司并未提供新 Instruct 模型的細(xì)節(jié)或基準(zhǔn),而是參考了 2022 年 1 月發(fā)布的 InstructGPT,即 GPT-3.5 模型的實(shí)現(xiàn)基礎(chǔ)。
OpenAI 稱,GPT-4 擁有超越 GPT-3.5 的復(fù)雜指令遵循能力,生成的結(jié)果也比 GPT-3.5 質(zhì)量更高;但 GPT-3.5 也有自己的獨(dú)特優(yōu)勢(shì),例如速度更快且運(yùn)行成本更低。GPT-3.5-turbo-instruct 并非聊天模型,這一點(diǎn)與原始 GPT-3.5 有所區(qū)別。具體來講,與之前的聊天應(yīng)用模型不同,GPT-3.5-turbo-instruct 主要針對(duì)直接問答或文本補(bǔ)全進(jìn)行優(yōu)化。
速度方面,OpenAI 稱 GPT-3.5-turbo-instruct 速度與 GPT-3.5-turbo 基本相當(dāng)。
下圖為 OpenAI 設(shè)計(jì)的 Instruct 指令模型與 Chat 聊天模型之間的區(qū)別。這種固有差異自然會(huì)對(duì)提示詞的具體編寫產(chǎn)生影響。
OpenAI 負(fù)責(zé)開發(fā)者關(guān)系的 Logan Kilpatrick 稱,這套新的指令模型屬于向 GPT-3.5-turbo 遷移當(dāng)中的過渡性產(chǎn)物。他表示其并不屬于“長(zhǎng)期解決方案”。已經(jīng)在使用微調(diào)模型的用戶,需要根據(jù)新的模型版本做重新微調(diào)。目前微調(diào)功能只適用于 GPT-3.5,GPT-4 的微調(diào)選項(xiàng)計(jì)劃于今年晚些時(shí)候發(fā)布。
多模態(tài)大模型 GPT-Vision 與 Gobi
除了 GPT-3.5-turbo-instruct,OpenAI 近日還計(jì)劃發(fā)布多模態(tài)大模型 GPT-Vision,以及一個(gè)代號(hào)為“Gobi”的更強(qiáng)大的多模態(tài)大模型。
據(jù)悉,GPT-Vision 在 3 月份的 GPT-4 發(fā)布期間首次預(yù)覽,是 OpenAI 融合文本和視覺領(lǐng)域的雄心勃勃的嘗試。雖然該功能最初實(shí)際用例僅限于 Be My Eyes 公司,這家公司通過其移動(dòng)應(yīng)用幫助視力障礙或失明用戶進(jìn)行日常活動(dòng)。
GPT-Vision 有潛力重新定義創(chuàng)意內(nèi)容生成的界限。想象一下使用簡(jiǎn)單的文本提示生成獨(dú)特的藝術(shù)品、徽標(biāo)或模因。或者考慮一下對(duì)有視覺障礙的用戶的好處,他們可以通過自然語(yǔ)言查詢與視覺內(nèi)容交互并理解視覺內(nèi)容。該技術(shù)還有望徹底改變視覺學(xué)習(xí)和教育,使用戶能夠通過視覺示例學(xué)習(xí)新概念。
如今,OpenAI 正準(zhǔn)備將這項(xiàng)名為 GPT-Vision 的功能開放給更廣泛的市場(chǎng)受眾。
此外,據(jù) The Information 報(bào)道,OpenAI 即將發(fā)布代號(hào)為“Gobi”的下一代多模態(tài)大語(yǔ)言模型,希望借此擊敗谷歌并繼續(xù)保持市場(chǎng)領(lǐng)先地位。目前,Gobi 的訓(xùn)練還沒有開始,有評(píng)論認(rèn)為其有機(jī)會(huì)成為 GPT-5。
報(bào)道稱,OpenAI 之所以耗費(fèi)大量時(shí)間來推出 Gobi,主要是擔(dān)心新的視覺功能會(huì)被壞人利用,例如通過自動(dòng)解決驗(yàn)證碼來冒充人類,或者通過人臉識(shí)別追蹤人們。但現(xiàn)在,OpenAI 的工程師們似乎想到辦法來緩解這個(gè)安全問題了。
OpenAI CEO:GPT-5 尚未出現(xiàn),計(jì)劃將多模態(tài)功能納入 GPT-4
據(jù)了解,多模態(tài)大語(yǔ)言模型的本質(zhì)是一種先進(jìn) AI 系統(tǒng),能夠理解和處理多種數(shù)據(jù)形式,包括文本和圖像。與主要處理文本內(nèi)容的傳統(tǒng)語(yǔ)言模型不同,多模態(tài)大語(yǔ)言模型能夠同時(shí)對(duì)文本加視覺類內(nèi)容進(jìn)行分析和生成。
也就是說,這類模型可以解釋圖像、理解上下文并生成包含文本和視覺輸入的響應(yīng)結(jié)果。多模態(tài)大模型還擁有極高的通用性,適用于從自然語(yǔ)言理解到圖像解釋的諸多應(yīng)用,借此提供更廣泛的信息處理能力。
報(bào)道指出,“這些模型能夠處理圖像和文本,例如通過查看用戶繪制的網(wǎng)站外觀草圖來生成網(wǎng)站構(gòu)建代碼,或者根據(jù)文本分析結(jié)果輸出可視化圖表。如此一來,普通用戶也能快速理解內(nèi)容含義,不必再向擁有技術(shù)背景的工程師們求助?!?/span>
OpenAI 首席執(zhí)行官 Sam Altman 在最近的采訪中表示,盡管 GPT-5 尚未出現(xiàn),但他們正計(jì)劃對(duì) GPT-4 進(jìn)行各種增強(qiáng)。而開放多模態(tài)支持功能,也許就是這項(xiàng)計(jì)劃的一部分。
在上周接受《連線》采訪時(shí),谷歌 CEO 桑達(dá)爾·皮查伊表達(dá)了他對(duì)于谷歌當(dāng)前 AI 江湖地位的信心,強(qiáng)調(diào)其仍掌握著技術(shù)領(lǐng)先優(yōu)勢(shì)、并在創(chuàng)新與責(zé)任方面求取平衡的審慎戰(zhàn)略。他也對(duì) OpenAI ChatGPT 的深遠(yuǎn)意義表示認(rèn)可,稱贊其擁有良好的產(chǎn)品-市場(chǎng)契合度、讓用戶對(duì) AI 技術(shù)做好了準(zhǔn)備。但他同時(shí)強(qiáng)調(diào),谷歌在產(chǎn)品信任和負(fù)責(zé)態(tài)度方面會(huì)采取更加謹(jǐn)慎的立場(chǎng)。