AV观看不卡流畅九月丁香六月婷婷|亚洲AV搜狐网国产无码久久一区|狠狠色2021日韩午夜视频欧美|中文字幕无码AV五月天成人色导航|五月天激情综合日本ji91av|国模一区二区日韩久久性视频|99热压线观看1999人人操|激情久久综合国产一区成人

會(huì)員登錄 立即注冊

搜索

[切換城市]

OpenAI GPT-4o推出圖像生成功能,攻克“生成圖像中的文字”難題

新資訊 2025-3-26 15:27 第一財(cái)經(jīng) 7 0

圖像生成領(lǐng)域傳來了新進(jìn)展,OpenAI在攻克生成圖像中的文字方面的難題。北京時(shí)間326日凌晨,OpenAI進(jìn)行了直播,對(duì)GTP-4oSora進(jìn)行更新,在ChatGPTSora中推出GPT-4o的圖像生成功能。OpenAI此次強(qiáng)調(diào)了新功能在精準(zhǔn)理解文本描述、準(zhǔn)確生成文本方面的優(yōu)勢。


據(jù)OpenAI介紹,GPT-4o圖像生成功能擅長準(zhǔn)確呈現(xiàn)文本,并精準(zhǔn)遵循提示詞,該功能還會(huì)將GPT-4o的知識(shí)庫和聊天上下文作為靈感來源,這有助于使用者與圖像生成工具更有效地溝通并提高生成圖像的質(zhì)量。該功能供ChatGPT Plus、ProTeam和免費(fèi)用戶使用,并計(jì)劃隨后向企業(yè)、教育和API使用者推出。


OpenAI的示例中,要求大模型生成一名女子在一個(gè)俯瞰海灣大橋的房間里用筆在白板上寫字,衣服上印有OpenAI字樣,白板映著攝影師的身影,并描述了白板上所寫的文字。GPT-4o生成的圖像都體現(xiàn)了以上要求。隨后,OpenAI要求攝影師走到鏡頭前與女子擊掌,GPT-4o也呈現(xiàn)了這一畫面,且白板上的字不會(huì)變得凌亂,女子的身形和發(fā)型也與前一張圖像呈現(xiàn)的背影一致。



在其他示例中,OpenAI要求大模型生成上世紀(jì)中葉一個(gè)家庭中冰箱上貼著的詩歌短句,并要求畫面中的人手拿著特定的幾個(gè)詞,GPT-4o可以精準(zhǔn)還原。GPT-4o還能生成漫畫,但需要人準(zhǔn)確地描述畫面中的情節(jié)。OpenAI還展示了這個(gè)圖像生成功能在科學(xué)實(shí)驗(yàn)中的用途,該功能可以生成牛頓棱鏡實(shí)驗(yàn)的示意圖。此外,OpenAI還展示了該圖像生成功能在生成路牌、菜單、游戲畫面時(shí)的效果,以及生成雞尾酒配方、天氣信息圖像時(shí),大模型生成的專業(yè)配方和天氣文本描述。



就如何訓(xùn)練GPT-4o圖像生成功能,OpenAI解釋,OpenAI使用了網(wǎng)絡(luò)上的圖像和文本訓(xùn)練模型,讓模型學(xué)習(xí)圖像與文字、圖像與圖像之間的關(guān)系,使模型具有視覺流暢性,生成的圖片是有用的、具備上下文連貫性的。


GPT-4o圖像生成功能的特點(diǎn),OpenAI還表示,用戶可以通過自然對(duì)話與大模型交流,要求大模型改進(jìn)圖像,在這個(gè)過程中圖像中的人物等要素會(huì)保持一致性。使用者與大模型的交流也更順暢,可以同時(shí)要求大模型處理1020個(gè)不同的對(duì)象,以便圖像中各要素呈現(xiàn)出相關(guān)性。OpenAI對(duì)比其他圖像生成系統(tǒng)時(shí)稱,其他系統(tǒng)只能同時(shí)處理58個(gè)對(duì)象。


不過,OpenAI也指出,GPT-4o圖像生成功能也具備一些限制,例如存在幻覺、難以呈現(xiàn)太多依賴知識(shí)庫的圖像要素(例如元素周期表)、圖表準(zhǔn)確性不足、呈現(xiàn)非拉丁語言時(shí)可能容易出現(xiàn)幻覺、要求修改圖像中的錯(cuò)別字時(shí)難以精準(zhǔn)編輯。


生成圖像中的文字,此前是圖像生成領(lǐng)域的一個(gè)難題。國內(nèi),去年豆包升級(jí)文生圖能力,支持一鍵生成指定文本。今年3月,智譜AI發(fā)布了首個(gè)支持生成漢字的開源文生圖模型CogView4。不過,記者試用發(fā)現(xiàn),相關(guān)模型生成文字的能力還不太穩(wěn)定。


326日,記者使用豆包APP和智譜清言APP生成圖像,其中智譜清言用的模型是CogView4。記者輸入生成一張圖片,一個(gè)人在看墻上歌手演唱會(huì)的海報(bào),海報(bào)用中文寫著演唱會(huì)日期、演唱會(huì)主題描述、歌曲名稱。智譜清言生成的海報(bào)中出現(xiàn)不少亂碼。豆包生成的中文文字準(zhǔn)確,但理解有所偏差,呈現(xiàn)的是演唱會(huì)日期”“演唱會(huì)主題這些字樣。


隨后記者將提示詞改為一個(gè)人在看墻上歌手演唱會(huì)的海報(bào),海報(bào)用中文寫著演唱會(huì)日期為2025329日、演唱會(huì)主題為星空旅行、歌曲名稱《太空翱翔》,豆包呈現(xiàn)出了正確的日期和星空旅行字樣,仍有一些字是亂碼,智譜清言也生成了一些亂碼。



更新GPT-4o的圖像生成功能之后,OpenAI更大的產(chǎn)品更新將是推出GPT-5。今年2月,OpenAI首席執(zhí)行官山姆·奧爾特曼表示,OpenAI將會(huì)在ChatGPTAPI服務(wù)中搭載新模型GPT-5,GPT-5將集成公司多項(xiàng)技術(shù),包括推理模型o3的技術(shù),GPT-5可能會(huì)在未來幾個(gè)月內(nèi)推出。


(本文來自第一財(cái)經(jīng))


聲明:發(fā)布此文是出于傳遞更多信息之目的,若有來源標(biāo)注錯(cuò)誤或侵犯了您的合法權(quán)益,請(qǐng)聯(lián)系我們,確認(rèn)后馬上更正或刪除,謝謝!
新資訊傳遞價(jià)值資訊,為用戶提供便捷、高效的資訊獲取與內(nèi)容創(chuàng)作和信息服務(wù),是一個(gè)很有影響力的多元化綜合資訊平臺(tái)。
關(guān)于我們
公司介紹
發(fā)展歷程
聯(lián)系我們
本站站務(wù)
服務(wù)協(xié)議
本站義務(wù)
友情鏈接
業(yè)務(wù)合作
廣告服務(wù)
商家入駐
我要投稿

手機(jī)APP

官方微博

官方微信

甘肅盛世匯新資訊科技有限公司 隴ICP備17005351號(hào)-5|甘公網(wǎng)安備 62012102000363號(hào) 客服郵箱:sshxqy@163.com 投稿郵箱:sshxqy@126.com
QQ|Powered by Discuz! X3.5 © 2001-2025 Discuz! Team.
返回頂部