核心提示:機器狗、機器人領域,又多了一個新玩家。以AI知名的科技公司科大訊飛,2022全球1024開發者節上官宣最新技術成果和進展
機器狗、機器人領域,又多了一個新玩家。
以AI知名的科技公司科大訊飛,2022全球1024開發者節上官宣最新技術成果和進展。
其中之一,就是“AI+四足機器人”項目,機器狗:小黑。
沒錯,科大訊飛也決定擁有一只機器狗,還是很新的那種:能沿著臺階進行上坡和下坡動作。
(現在的大多數機器狗還在“模仿動作”的初級仿生階段,只具備基礎的平地行走功能。)
決定養“狗”的互聯網、AI公司越來越多了,現在認識一只機器狗,需要從廠牌開始分辨。
小黑的新,不僅在能力上,還在科大訊飛養它的方式上——
別人造機器狗,更多是在做硬件,訓練它走路、陪伴。
科大訊飛造機器狗,更吸睛的故事,聚焦在訓練“超腦”上。
機器人超腦平臺
科大訊飛如何訓?怎么訓?現場小黑就來打了個樣。
別看外表平平無奇,但一上陣就懂了。
常規操作自然就不多說了,自主導航上下坡,各種復雜地形也能穿梭自如,比如草地沙石玻璃路。
還可立即上崗上位,深入多個場景一線,完成檢查亂堆亂放、車牌人臉識別、工廠故障巡檢(化工、電力、工業)等任務。
通常而言,機器狗技術無非感知、控制決策兩個方面,小黑也同樣如此:
運動控制:AI+運動、自主導航、視頻分析、自適應步態等算法。據官方介紹,他們率先打通了從仿真訓練到真機部署的AI+運動智能的全鏈條開發。
感知:多模態多傳感器融合。麥克風、喇叭、攝像、氣體傳感器等多傳感器,通過混合式架構和中央決策平臺 、多傳感器底層核心算法,賦予機器狗識別聽聲辨味的感知能力。
這一切的一切,都是科大訊飛機器人超腦平臺AIBOT所賦予的。于是當機器狗有了“腦”,從已曝光的能力提升中就可見一斑。
比如,實時地形自適應能力、全局定位搜索能力、地圖構建能力以及AI運動控制能力。
不過這也并不是機器人超腦平臺AIBOT的全部用處。超腦平臺也并非只是為了馴狗,而是由點及面,既有實體機器人又有數字機器人,在多個場景和行業下的軟硬件一體解決方案。
目前,它已部署在了全新的訊飛開放平臺上。從這張架構圖中可以看到,現在訊飛開放平臺核心能力主要包括:
能力云AIHUB、交互云AIUI+、模型云AILAB、資產平臺AIRES、超自動化AIRPA、機器人超腦平臺AIBOT。
小黑,正是訊飛機器人超腦平臺AIBOT其中一個案例。通過交互大腦、運動控制、硬件模組來快速構建機器人的運動能力。機械臂、人形機器人、仿生、特種等各種機器人都可以適配。主要有三大特點:高性能、高效率、高精度。
高性能:8核CPU,NPU算力高達6TOPS;
高效率:一次建圖覆蓋率90%;
高精度:5cm的定位和建模精度。
在現場,科大訊飛消費者BG總裁于繼棟還列舉了柔性機械臂的例子,在賦予機器人超腦平臺AIBOT之后,新增了AI+深度視覺、AI+運動控制等能力,從而能快速應用工業質檢、商業服務、遠程超聲、柔性生產等場景當中去。
能力云AIHUB自然不必多說,AI公司立身之本,再聯合生態AI能力,持續保證穩定輸出,今年更是給出了全系列的離線版本。
在今年更新的513項開放能力中,以SMART-TTS ,多風格多功能語音合成最為典型。
以往語音合成主要用于語音助理和新聞播報這些場景,但這次在風格、場景以及情感上有了新拓展,共有10個場景可選、11種情感可調。
交互云AIUI+。不管是虛實哪一種機器人,在與人交互時都面臨著公共場景下的干擾問題。典型的難題場景包括同向人聲干擾,而本身以語音見長的科大訊飛,提出了遠近場多模語音增強技術,在同向人聲干擾環境下,識別準確率從60.2%到現在提升到了86%以上。
模型云AILAB ,具體場景具體定制。像格式多樣、數據稀缺還是價格敏感的情況,都能為其提供小樣本訓練平臺。5張圖片訓練出OCR定制模型,半小時音頻生成商用發音人、零成本搭建喚醒詞,了解一下~
而聚焦于數字世界的生態上。資產平臺AIRES,顧名思義就是與內容伙伴共建數字資產,比如虛擬人形象、數字藏品等。超自動化AIRPA則是在解決企業的數字化轉型,包括智能化員工助手、柔性人機協同、跨組織無邊界協作……
最終,這些能力都透過實體機器人、數字虛擬人兩種形式逐步深入到各個行業與家庭當中。
這也正是科大訊飛對AI新趨勢的理解。
當下隨著元宇宙興起,融合AI與5G,虛擬世界與現實世界實現了深層次融合,人機協同逐漸人機共生的階段。
機器人,就是其中關鍵的載體。
基于這樣的邏輯,機器人超腦平臺AIBOT,依托混合式架構、中央決策平臺、多傳感器融合,構建端側超腦,讓機器人產品在感知智能、認知智能和運動智能得到多維度的提升,也就成為了科大訊飛交出的第一份答卷。
確切的來說,是科大訊飛整個超腦2030計劃的第一步:
更快實現讓“懂知識、善學習、能進化”的機器人走進每個家庭;诔X2030計劃,以API、低代碼、軟硬件一體、解決方案等方式,面向實體機器人和數字機器人建設N種場景化機器人,賦能工業、農業、服務業、特種行業,連接產業生態,共建行業場景。
“超腦2030計劃 ”第一步,跨出多大步子?
早在今年1月,這個計劃就已經啟動,核心是利用AI解決未來社會的剛需問題,如教育、人口老齡化等。
其第一階段目標,就是在2023年前,推出可養成的機器寵物、仿生運動機器狗等軟硬件一體的機器人,同期推出專業數字虛擬人家族,擔當老師、醫生等角色。
該計劃的最終目標,是推出懂知識、會學習的陪伴機器人和自主學習虛擬人家族,全面進入家庭。
而現在,AI技術推動四足機器狗小黑從異寵向工具狗邁了一步。
值得注意的是,機器人超腦平臺的背后支撐,不僅讓更多企業在工業級運用中可以無糧養狗,更多的室內和戶外場景中,實體機器人都在拓展人的能力邊界。
高精度的細活、繁重枯燥的累活、危險易受傷的險活……
機器人、機械臂,上!
人機協同之外,在人機交互階段,AI已經在發揮日益重要的作用。
科大訊飛在背后提供技術與生態來支撐,率先證明了這一點。
實現超腦2030計劃需要哪些關鍵技術突破?科大訊飛AI研究院副院長高建清公開了相關信息。
第一,需要以深度學習(Deep Learning)為代表的AI基礎算法的突破。
在諸多AI基礎算法中,無監督學習和知識推理是兩個亟待突破的關鍵算法。
1024開發者節當天,科大訊飛發布了兩個輕量級預訓練模型:語音及多模態預訓練模型。這兩個模型的參數量遠小于業界公開的模型,但效果卻達到了業界最優,推廣性也很好。
整個2022年,科大訊飛有三項知識推理任務取得不錯的成績,尤其在面向特定領域的知識推理方面,機器水平已經在今年7月首次超過人類水平。
此外,知識推理的另一個重要研究方向,也就是如何實現推理過程的可解釋性,科大訊飛將傳統符號推理系統與深度強化學習相結合,得出一套在類人答題領域正確率顯著優于傳統推理系統的框架。
第二,是引領人機交互發展方向的多模態感知技術、多維表達技術、認知智能技術。
拿多模態感知技術舉個具體例子來說,通常,語音識別的高準確率,不代表識別出的文字合理、流暢。
科大訊飛基于多元語義評價的語音識別一體化框架,使用語義糾錯任務與語音識別聯合優化,讓語音識別保持高準確率的同時,提高識別后文字的可讀性。
第三,需要研究軟硬一體的機器人關鍵技術,加大AI算法與運動控制的結合,讓機器人具備精細的運動控制能力。
具體的技術展示,已經體現在小黑爬坡上坎的功夫中了。
除此之外,科大訊飛還整合工程能力,形成虛擬人交互平臺、機器人超腦平臺,探索數字虛擬人、機器人等方面的應用。
現場,高建清展示了科大訊飛打造的一個裸眼3D場景下的高沉浸式人機交互。
而關于生態支撐這一點,在今年的開發者節上,科大訊飛董事長劉慶峰拿數據說話。
首先,是訊飛開放平臺在過去一年的發展情況——
訊飛開放平臺開放的AI產品及能力,從去年441項增長至今年513項;
生態伙伴數從400萬快速增長到超500萬,年增長率超30%;
AI服務調用年增長率達到36%;
輸入法語音調用量同比增長45%,Z世代群體平均語音輸入次數達到61次,是整體語音用戶的2倍。
接下來,看看劉慶峰披露出的過去一年內,訊飛生態的其它數據。
其一,是虛擬人交互平臺資產增加。
一方面,科大訊飛基于AI虛擬人交互平臺,開放平臺合作伙伴生態。
發布一年后,虛擬人設計隊伍共468支,建設了700項虛擬人資產。
其次,剛剛結束的雙11“混戰”,帶來了最新消費者數據:科大訊飛銷售額同比增長32%。
最受追捧的當屬本就是“老奪冠人”的AI辦公產品,智能辦公本、智能錄音筆和翻譯機產品,拿下京東和天貓所在品類銷售額冠軍。
一些辦公硬件,比如辦公本、會議耳機、翻譯機,年增長率均近或超100%。
綜合多個數據,不難看出AI生態已經滲入各行各業,為生活和工業場景所熟用。
給出這一份綜合答卷,劉慶峰表示,隨著發展深入,AI在感知能力、理解能力、表達能力、運動能力方方面面,都需要承擔更大的任務。
一個屬于未來的時代正在快速開啟。
當數字經濟更深層次賦能實體經濟時,人工智能承擔了更大的任務。
這需要一個更強大的“頭號玩家”。
科大訊飛如何理解人機協同
2020年,科大訊飛發布了AI科技樹,強調“以基礎算法為主干,以技術體系為生長方向,以場景理解為發展動力”。
2022年,在超腦2030計劃的牽引下,科大訊飛的AI科技樹不斷壯大。
既有以基礎算法為代表的主干發展,也有各技術體系的不斷外拓延伸。
作為AI技術落地的一種表現形式,人機協同已然崛起。
人機協同的目的是改善工作流程,途徑是讓人和機器進行工作和經驗的交流。
機器可以根據人類提供的信息,按步驟和流程執行作業;人類再在機器產出的成果上,錦上添花。
二者各做彼此的擅長事,實現人類和機器的價值最大化。
而整場大會聽下來,從整合多項技術的機器人超腦平臺窺見一隅,不難梳理出科大訊飛對人機協同的理解。
共分三個維度:
在物理世界,實體機器人拓展人的能力邊界。
具體而言,輪足機器人應用于餐飲服務、物資運輸等場景;弈棋機器人可以滿足圍棋教學、訓練和娛樂領域的多種需求。
在數字世界,數字工作助手助力工作提效;
據悉,2022年,訊飛AI虛擬人已在醫療、金融、媒體、文旅等多個行業上崗,亮相兩會、北京冬奧會、世界人工智能大會等多個場合。
在元宇宙,虛擬人成為人的交互載體。
通過這三個維度,技術將和個人與企業深度聯結,多模感知、深度理解、多維表達都將個性化展開。
在這個過程中,科大訊飛帶給生活的技術支撐和生態積累,是看得見、摸得著、用得上的。
“人機關系,已經在從單點技術的淺層人機協同,向更深層次、更為復雜的人機發展。”劉慶峰如是說。
而且這種人機關系,即將進入可見、可感、可觸碰的人機關系。這也是另一個維度上,AI和智能,正在如何影響和參與實體經濟。
以AI知名的科技公司科大訊飛,2022全球1024開發者節上官宣最新技術成果和進展。
其中之一,就是“AI+四足機器人”項目,機器狗:小黑。
沒錯,科大訊飛也決定擁有一只機器狗,還是很新的那種:能沿著臺階進行上坡和下坡動作。
(現在的大多數機器狗還在“模仿動作”的初級仿生階段,只具備基礎的平地行走功能。)
決定養“狗”的互聯網、AI公司越來越多了,現在認識一只機器狗,需要從廠牌開始分辨。
小黑的新,不僅在能力上,還在科大訊飛養它的方式上——
別人造機器狗,更多是在做硬件,訓練它走路、陪伴。
科大訊飛造機器狗,更吸睛的故事,聚焦在訓練“超腦”上。
機器人超腦平臺
科大訊飛如何訓?怎么訓?現場小黑就來打了個樣。
別看外表平平無奇,但一上陣就懂了。
常規操作自然就不多說了,自主導航上下坡,各種復雜地形也能穿梭自如,比如草地沙石玻璃路。
還可立即上崗上位,深入多個場景一線,完成檢查亂堆亂放、車牌人臉識別、工廠故障巡檢(化工、電力、工業)等任務。
通常而言,機器狗技術無非感知、控制決策兩個方面,小黑也同樣如此:
運動控制:AI+運動、自主導航、視頻分析、自適應步態等算法。據官方介紹,他們率先打通了從仿真訓練到真機部署的AI+運動智能的全鏈條開發。
感知:多模態多傳感器融合。麥克風、喇叭、攝像、氣體傳感器等多傳感器,通過混合式架構和中央決策平臺 、多傳感器底層核心算法,賦予機器狗識別聽聲辨味的感知能力。
這一切的一切,都是科大訊飛機器人超腦平臺AIBOT所賦予的。于是當機器狗有了“腦”,從已曝光的能力提升中就可見一斑。
比如,實時地形自適應能力、全局定位搜索能力、地圖構建能力以及AI運動控制能力。
不過這也并不是機器人超腦平臺AIBOT的全部用處。超腦平臺也并非只是為了馴狗,而是由點及面,既有實體機器人又有數字機器人,在多個場景和行業下的軟硬件一體解決方案。
目前,它已部署在了全新的訊飛開放平臺上。從這張架構圖中可以看到,現在訊飛開放平臺核心能力主要包括:
能力云AIHUB、交互云AIUI+、模型云AILAB、資產平臺AIRES、超自動化AIRPA、機器人超腦平臺AIBOT。
小黑,正是訊飛機器人超腦平臺AIBOT其中一個案例。通過交互大腦、運動控制、硬件模組來快速構建機器人的運動能力。機械臂、人形機器人、仿生、特種等各種機器人都可以適配。主要有三大特點:高性能、高效率、高精度。
高性能:8核CPU,NPU算力高達6TOPS;
高效率:一次建圖覆蓋率90%;
高精度:5cm的定位和建模精度。
在現場,科大訊飛消費者BG總裁于繼棟還列舉了柔性機械臂的例子,在賦予機器人超腦平臺AIBOT之后,新增了AI+深度視覺、AI+運動控制等能力,從而能快速應用工業質檢、商業服務、遠程超聲、柔性生產等場景當中去。
能力云AIHUB自然不必多說,AI公司立身之本,再聯合生態AI能力,持續保證穩定輸出,今年更是給出了全系列的離線版本。
在今年更新的513項開放能力中,以SMART-TTS ,多風格多功能語音合成最為典型。
以往語音合成主要用于語音助理和新聞播報這些場景,但這次在風格、場景以及情感上有了新拓展,共有10個場景可選、11種情感可調。
交互云AIUI+。不管是虛實哪一種機器人,在與人交互時都面臨著公共場景下的干擾問題。典型的難題場景包括同向人聲干擾,而本身以語音見長的科大訊飛,提出了遠近場多模語音增強技術,在同向人聲干擾環境下,識別準確率從60.2%到現在提升到了86%以上。
模型云AILAB ,具體場景具體定制。像格式多樣、數據稀缺還是價格敏感的情況,都能為其提供小樣本訓練平臺。5張圖片訓練出OCR定制模型,半小時音頻生成商用發音人、零成本搭建喚醒詞,了解一下~
而聚焦于數字世界的生態上。資產平臺AIRES,顧名思義就是與內容伙伴共建數字資產,比如虛擬人形象、數字藏品等。超自動化AIRPA則是在解決企業的數字化轉型,包括智能化員工助手、柔性人機協同、跨組織無邊界協作……
最終,這些能力都透過實體機器人、數字虛擬人兩種形式逐步深入到各個行業與家庭當中。
這也正是科大訊飛對AI新趨勢的理解。
當下隨著元宇宙興起,融合AI與5G,虛擬世界與現實世界實現了深層次融合,人機協同逐漸人機共生的階段。
機器人,就是其中關鍵的載體。
基于這樣的邏輯,機器人超腦平臺AIBOT,依托混合式架構、中央決策平臺、多傳感器融合,構建端側超腦,讓機器人產品在感知智能、認知智能和運動智能得到多維度的提升,也就成為了科大訊飛交出的第一份答卷。
確切的來說,是科大訊飛整個超腦2030計劃的第一步:
更快實現讓“懂知識、善學習、能進化”的機器人走進每個家庭;诔X2030計劃,以API、低代碼、軟硬件一體、解決方案等方式,面向實體機器人和數字機器人建設N種場景化機器人,賦能工業、農業、服務業、特種行業,連接產業生態,共建行業場景。
“超腦2030計劃 ”第一步,跨出多大步子?
早在今年1月,這個計劃就已經啟動,核心是利用AI解決未來社會的剛需問題,如教育、人口老齡化等。
其第一階段目標,就是在2023年前,推出可養成的機器寵物、仿生運動機器狗等軟硬件一體的機器人,同期推出專業數字虛擬人家族,擔當老師、醫生等角色。
該計劃的最終目標,是推出懂知識、會學習的陪伴機器人和自主學習虛擬人家族,全面進入家庭。
而現在,AI技術推動四足機器狗小黑從異寵向工具狗邁了一步。
值得注意的是,機器人超腦平臺的背后支撐,不僅讓更多企業在工業級運用中可以無糧養狗,更多的室內和戶外場景中,實體機器人都在拓展人的能力邊界。
高精度的細活、繁重枯燥的累活、危險易受傷的險活……
機器人、機械臂,上!
人機協同之外,在人機交互階段,AI已經在發揮日益重要的作用。
科大訊飛在背后提供技術與生態來支撐,率先證明了這一點。
實現超腦2030計劃需要哪些關鍵技術突破?科大訊飛AI研究院副院長高建清公開了相關信息。
第一,需要以深度學習(Deep Learning)為代表的AI基礎算法的突破。
在諸多AI基礎算法中,無監督學習和知識推理是兩個亟待突破的關鍵算法。
1024開發者節當天,科大訊飛發布了兩個輕量級預訓練模型:語音及多模態預訓練模型。這兩個模型的參數量遠小于業界公開的模型,但效果卻達到了業界最優,推廣性也很好。
整個2022年,科大訊飛有三項知識推理任務取得不錯的成績,尤其在面向特定領域的知識推理方面,機器水平已經在今年7月首次超過人類水平。
此外,知識推理的另一個重要研究方向,也就是如何實現推理過程的可解釋性,科大訊飛將傳統符號推理系統與深度強化學習相結合,得出一套在類人答題領域正確率顯著優于傳統推理系統的框架。
第二,是引領人機交互發展方向的多模態感知技術、多維表達技術、認知智能技術。
拿多模態感知技術舉個具體例子來說,通常,語音識別的高準確率,不代表識別出的文字合理、流暢。
科大訊飛基于多元語義評價的語音識別一體化框架,使用語義糾錯任務與語音識別聯合優化,讓語音識別保持高準確率的同時,提高識別后文字的可讀性。
第三,需要研究軟硬一體的機器人關鍵技術,加大AI算法與運動控制的結合,讓機器人具備精細的運動控制能力。
具體的技術展示,已經體現在小黑爬坡上坎的功夫中了。
除此之外,科大訊飛還整合工程能力,形成虛擬人交互平臺、機器人超腦平臺,探索數字虛擬人、機器人等方面的應用。
現場,高建清展示了科大訊飛打造的一個裸眼3D場景下的高沉浸式人機交互。
而關于生態支撐這一點,在今年的開發者節上,科大訊飛董事長劉慶峰拿數據說話。
首先,是訊飛開放平臺在過去一年的發展情況——
訊飛開放平臺開放的AI產品及能力,從去年441項增長至今年513項;
生態伙伴數從400萬快速增長到超500萬,年增長率超30%;
AI服務調用年增長率達到36%;
輸入法語音調用量同比增長45%,Z世代群體平均語音輸入次數達到61次,是整體語音用戶的2倍。
接下來,看看劉慶峰披露出的過去一年內,訊飛生態的其它數據。
其一,是虛擬人交互平臺資產增加。
一方面,科大訊飛基于AI虛擬人交互平臺,開放平臺合作伙伴生態。
發布一年后,虛擬人設計隊伍共468支,建設了700項虛擬人資產。
其次,剛剛結束的雙11“混戰”,帶來了最新消費者數據:科大訊飛銷售額同比增長32%。
最受追捧的當屬本就是“老奪冠人”的AI辦公產品,智能辦公本、智能錄音筆和翻譯機產品,拿下京東和天貓所在品類銷售額冠軍。
一些辦公硬件,比如辦公本、會議耳機、翻譯機,年增長率均近或超100%。
綜合多個數據,不難看出AI生態已經滲入各行各業,為生活和工業場景所熟用。
給出這一份綜合答卷,劉慶峰表示,隨著發展深入,AI在感知能力、理解能力、表達能力、運動能力方方面面,都需要承擔更大的任務。
一個屬于未來的時代正在快速開啟。
當數字經濟更深層次賦能實體經濟時,人工智能承擔了更大的任務。
這需要一個更強大的“頭號玩家”。
科大訊飛如何理解人機協同
2020年,科大訊飛發布了AI科技樹,強調“以基礎算法為主干,以技術體系為生長方向,以場景理解為發展動力”。
2022年,在超腦2030計劃的牽引下,科大訊飛的AI科技樹不斷壯大。
既有以基礎算法為代表的主干發展,也有各技術體系的不斷外拓延伸。
作為AI技術落地的一種表現形式,人機協同已然崛起。
人機協同的目的是改善工作流程,途徑是讓人和機器進行工作和經驗的交流。
機器可以根據人類提供的信息,按步驟和流程執行作業;人類再在機器產出的成果上,錦上添花。
二者各做彼此的擅長事,實現人類和機器的價值最大化。
而整場大會聽下來,從整合多項技術的機器人超腦平臺窺見一隅,不難梳理出科大訊飛對人機協同的理解。
共分三個維度:
在物理世界,實體機器人拓展人的能力邊界。
具體而言,輪足機器人應用于餐飲服務、物資運輸等場景;弈棋機器人可以滿足圍棋教學、訓練和娛樂領域的多種需求。
在數字世界,數字工作助手助力工作提效;
據悉,2022年,訊飛AI虛擬人已在醫療、金融、媒體、文旅等多個行業上崗,亮相兩會、北京冬奧會、世界人工智能大會等多個場合。
在元宇宙,虛擬人成為人的交互載體。
通過這三個維度,技術將和個人與企業深度聯結,多模感知、深度理解、多維表達都將個性化展開。
在這個過程中,科大訊飛帶給生活的技術支撐和生態積累,是看得見、摸得著、用得上的。
“人機關系,已經在從單點技術的淺層人機協同,向更深層次、更為復雜的人機發展。”劉慶峰如是說。
而且這種人機關系,即將進入可見、可感、可觸碰的人機關系。這也是另一個維度上,AI和智能,正在如何影響和參與實體經濟。