国内a级毛片-国内不卡1区2区-国内福利写真片视频在线观看-国内高清久久久久久久久-日本高清无吗-日本高清午夜色wwwσ

多模態(tài)大模型推動(dòng)AI邁向“通感”時(shí)代

放大字體  縮小字體 發(fā)布日期:2023-07-20     來(lái)源:文匯報(bào)     瀏覽次數(shù):438
   多模態(tài)大模型推動(dòng)AI邁向“通感”時(shí)代

  如同人類(lèi)的“五感”互相連通密不可分,人工智能(AI)的視覺(jué)、語(yǔ)言、音頻等模態(tài)間的邊界也在日漸融合。隨著人工智能感知、交互和生成能力的快速發(fā)展,多模態(tài)大模型正推動(dòng)人工智能邁進(jìn)“通感”時(shí)代。

  記者昨天從上海人工智能實(shí)驗(yàn)室獲悉,該實(shí)驗(yàn)室發(fā)布的書(shū)生多模態(tài)大模型在全球80多種多模態(tài)和視覺(jué)評(píng)測(cè)任務(wù)中性能領(lǐng)先,超過(guò)谷歌、微軟、OpenAI等研發(fā)的同類(lèi)模型。

  書(shū)生多模態(tài)大模型包含200億個(gè)參數(shù),由80億個(gè)海量多模態(tài)樣本訓(xùn)練而成,支持350萬(wàn)語(yǔ)義標(biāo)簽的識(shí)別和理解,覆蓋開(kāi)放世界常見(jiàn)的類(lèi)別和概念,已具備開(kāi)放世界理解、跨模態(tài)生成、多模態(tài)交互3方面核心能力。

  當(dāng)ChatGPT橫空出世,專(zhuān)家就預(yù)言它將改變?nèi)藱C(jī)交互的“接口”。當(dāng)下,多模態(tài)理解、生成和交互能力正成為大模型新一輪演化的重要方向,一個(gè)人人都能用語(yǔ)音“指揮”AI的低門(mén)檻時(shí)代或許已近在咫尺。

  從預(yù)定義任務(wù)到開(kāi)放任務(wù),解鎖真實(shí)世界理解力

  在快速增長(zhǎng)的各類(lèi)應(yīng)用場(chǎng)景需求下,傳統(tǒng)計(jì)算機(jī)視覺(jué)已無(wú)法處理真實(shí)世界中數(shù)不勝數(shù)的特定任務(wù)和場(chǎng)景需求,迫切需要一種具備通用場(chǎng)景感知和復(fù)雜問(wèn)題處理能力的高級(jí)視覺(jué)系統(tǒng)。書(shū)生多模態(tài)大模型融合了視覺(jué)、語(yǔ)言及多任務(wù)建模三大模型能力,即通用視覺(jué)大模型、用于文本理解的超大語(yǔ)言預(yù)訓(xùn)練模型(LLM)和用于多任務(wù)的兼容解碼建模大模型,這使它能夠更接近人類(lèi)的感知和認(rèn)知能力。

  在人工智能研究中,“開(kāi)放世界”是指非預(yù)設(shè)、非學(xué)術(shù)集或封閉集定義的真實(shí)世界。傳統(tǒng)研究中,AI僅能完成預(yù)定義任務(wù),即學(xué)術(shù)集或封閉集定義的任務(wù),而這種任務(wù)范圍與真實(shí)的開(kāi)放世界存在很大差距。例如,ImageNet-1K學(xué)術(shù)集包含1000種物體,其中約有兩種花、48種鳥(niǎo)和21種魚(yú);而在真實(shí)世界中,花、鳥(niǎo)、魚(yú)的種類(lèi)分別約為45萬(wàn)、1萬(wàn)和2萬(wàn)。

  在開(kāi)放世界中,書(shū)生多模態(tài)大模型正通過(guò)不斷學(xué)習(xí),獲得更接近人類(lèi)的感知和認(rèn)知能力。在語(yǔ)義開(kāi)放方面,它可以識(shí)別和理解開(kāi)放世界中超過(guò)350萬(wàn)種語(yǔ)義,覆蓋日常生活中常見(jiàn)的物體類(lèi)別、物體動(dòng)作和光學(xué)字符等,完成了從解決預(yù)定義任務(wù)到執(zhí)行開(kāi)放任務(wù)的蛻變,為未來(lái)多模態(tài)通用人工智能(AGI)模型研究提供了有力支持。

  看圖寫(xiě)詩(shī),跨模態(tài)生成同時(shí)給出“創(chuàng)作思路”

  眼下,AI技術(shù)的發(fā)展正面臨著大量跨模態(tài)任務(wù)的挑戰(zhàn)。如在自動(dòng)駕駛場(chǎng)景下,需準(zhǔn)確輔助車(chē)輛判斷交通燈狀態(tài)、道路標(biāo)志牌等信息,為車(chē)輛的決策規(guī)劃提供有效信息輸入。

  看圖寫(xiě)作是一種經(jīng)典的模態(tài)轉(zhuǎn)換能力。在“欣賞”了張大千的《湖山清夏圖》后,書(shū)生多模態(tài)大模型根據(jù)要求創(chuàng)作了一首七言絕句,詩(shī)篇如下:“山峰高聳入云天,云霧繚繞自成煙。忘身物外心自適,靜聽(tīng)松濤入畫(huà)眠。”上海人工智能實(shí)驗(yàn)室表示,書(shū)生多模態(tài)大模型已經(jīng)具備了由圖像到文本的跨模態(tài)生成能力,最后一句還借鑒了唐代詩(shī)人韋莊的名句“春水碧于天,畫(huà)船聽(tīng)雨眠”,體現(xiàn)出一定文化積累。

  生成文本的同時(shí),書(shū)生大模型還給出了“創(chuàng)作思路”:首先確定圖片中描繪的元素;其次,從畫(huà)面中尋找能夠表達(dá)出詩(shī)人思想情感的元素,如山峰高聳、云霧繚繞、松濤等;第三,根據(jù)元素構(gòu)思詩(shī)句;最后,根據(jù)詩(shī)句的韻律和格律完善表達(dá)。

  將圖像視為新語(yǔ)言,多模態(tài)交互降低使用門(mén)檻

  當(dāng)人工智能邁入“通感”時(shí)代,對(duì)人們最近的影響是什么?上海人工智能實(shí)驗(yàn)室有關(guān)專(zhuān)家表示,書(shū)生多模態(tài)大模型可以將圖像視為一種新的語(yǔ)言,用戶(hù)可利用自然語(yǔ)言指令,靈活定義和管理任意視覺(jué)任務(wù)。

  打個(gè)比方,當(dāng)你輸入一張照片,并用語(yǔ)音“指揮”AI將其轉(zhuǎn)換成一段文字并發(fā)送給父母時(shí),它能立即理解并完成指令。多模態(tài)交互功能降低了AI任務(wù)的門(mén)檻,使AI有望成為萬(wàn)千大眾都能使用的生產(chǎn)工具。

  也就是說(shuō),人機(jī)交互的“接口”即將改變。過(guò)去,我們?cè)诓煌瑘?chǎng)景中借助不同軟件與虛擬世界相連,這意味著我們還處于圖形界面用戶(hù)時(shí)代;未來(lái),多模態(tài)大模型將把我們帶入自然語(yǔ)言對(duì)話(huà)界面時(shí)代,如鋼鐵俠擁有了AI助手賈維斯。
工博士工業(yè)品商城聲明:凡資訊來(lái)源注明為其他媒體來(lái)源的信息,均為轉(zhuǎn)載自其他媒體,并不代表本網(wǎng)站贊同其觀點(diǎn),也不代表本網(wǎng)站對(duì)其真實(shí)性負(fù)責(zé)。您若對(duì)該文章內(nèi)容有任何疑問(wèn)或質(zhì)疑,請(qǐng)立即與商城(www.cacpa.com.cn)聯(lián)系,本網(wǎng)站將迅速給您回應(yīng)并做處理。
聯(lián)系電話(huà):021-31666777
新聞、技術(shù)文章投稿QQ:3267146135  投稿郵箱:[email protected]
主站蜘蛛池模板: 亚洲三级在线播放 | 亚洲97在线 | 日本高清中文字幕一区二区三区a | 蜜臀91精品国产免费观看 | 成年片黄大全 | 精品四虎免费观看国产高清午夜 | 国产福利午夜波多野结衣 | 四虎影院免费观看 | 两个人高清视频免费观看www | 国产一区三区二区中文在线 | 欧美日本在线一区二区三区 | 人体蜈蚣2在线观看 | 成人免费动作大片黄在线 | 成人午夜无人区一区二区 | 99九九精品免费视频观看 | 日本亚洲综合 | 亚洲精品国产三级在线观看 | 男人毛片| 国产情侣真实露脸在线最新 | 五月婷婷视频 | 国产无遮挡男女羞羞影院在线播放 | 中文字幕成人在线观看 | 国产欧美在线一区二区三区 | 国产精品久久大陆 | 韩国一级黄色 | 欧美成人国产 | 天天影视欧美 | 91麻豆国产免费 | 99综合网 | 六月婷婷激情 | 91制片厂果冻传媒七夕 | 手机看片日韩 | 久久精品视频99精品视频150 | 丝瓜草莓向日葵芭比小猪 | 免费看一片 | 韩国一级性生活片 | 精品国产一区二区三区不卡蜜臂 | 成人深夜福利在线播放不卡 | 高清色本在线www | 久久99精品久久久久久三级 | 真实国产乱视频国语 |