無人機變聰明了!李學龍團隊創造機器說話的新紀元
語言是人類交流和思維呈現最為重要的符號系統,是推動人類文明的重要力量,那麼機器能否用語言進行交互,表達自己的所見、所聽、所想,成為真正的智慧機器人呢?近日,西北工業大學光電與智能研究院李學龍教授和同事們在機器互動方面取得創新進展:基於國產大模型,研發了 「群聊式」無人機控制框架,給每架無人機裝上了大腦,讓無人機集群在語言溝通中動態協同,實現了開放環境下「人機」和「多機」的對話互動,打破人類和機器的交互壁壘,進一步拓展了臨地安防的應用場景。
大模型具有出色的泛化能力,這使得它們成為實現「通用人工智慧」的希望之光。然而,光是閱讀大量的書籍遠不如親身實踐來得有效。在開放的環境中,大模型需要真實地融入物理世界,才能真正理解複雜的任務並解決實際問題
近日,李學龍教授團隊在開放環境中的自主無人機集群方面開展了創新研究,讓大模型插上翅膀,飛入我們的現實生活中。
受人類的認知模式啟發,團隊將認知形成的高度自主性凝練為「思考計算—實體控制—環境感知」的三元互動,建立了「書生浦語」開源大模型驅動的自主無人機「群聊式」控制框架,實現了開放環境和複雜任務中的智慧互動、主動感知和自主控制,提高了無人機任務執行的自主性。
整體而言,類人對話互動、主動環境感知、自主實體控制,是自主無人機群集的主要能力。
- 類別人對話互動
#圖一 無人機群聊溝通
探索人類使用者與無人機的互動方式,讓無人機理解複雜任務中的使用者需求,是實現自主無人機的前提條件。
針對此,團隊提出「群聊式」對話互動方法,將聲音、影像和無人機自身狀態等多種訊息,透過大模型轉換為自然語言的對話形式,實現了使用者與無人機,以及無人機與無人機之間自主和直覺的互動方式。同時,團隊設計了一套高效的即時回饋機制,使得無人機能夠在任務執行的關鍵節點透過對話報告自身狀態、尋求使用者確認,大大提高了複雜任務執行的穩定性和安全性。
2. 主動環境感知
圖二 主動發現並靠近目標
#圖三 動態環境避障
在飛行過程中,無人機主動感知外部環境,即時調整任務規劃,是完成複雜任務的關鍵環節。
針對此,團隊設計了任務引導的主動感知機制,提出了多感測器融合的低空搜尋、動態避障和視覺定位演算法。在實際任務執行中,根據感知資訊和任務目標,動態調整無人機飛行路徑和觀測位姿,嘗試從不同角度和位置感知周圍世界,逐漸降低環境中的不確定性,實現高效的資訊採集和任務執行。
3. 自主控制
圖四 #自主目標抓取
圖五 異構無人機群集協同控制
探索複合智能體形態,增強複雜任務處理能力,是大模型時代新型智能體的研究重點。
針對此,團隊依托無人機平台設計了夾爪等末端執行器,將傳統無人機拓展為「飛行機器人」,長出「手」來,具備抓取能力。同時,建構了異質無人機集群協同控制機制,結合環境感知回饋,即時調整無人機編隊的飛行狀態,使集群分工執行區域搜尋、目標定位和抓取等任務。
大模型自主無人機群集是團隊將生物智能 「思維運算—實體控制—環境感知」的三元交互模式應用於自主智能體的成功嘗試,依託大語言模型、無人機平台和多種感測器,實現對話互動、主動感知和自主控制,對安防巡檢、災害救援、空中物流等臨地安防場景下的應用具有重要意義。
拓展閱讀:李學龍, 臨地安防(Vicinagearth security), 中國電腦學會通訊, 18(11), 44-52, 2022.
全文下載:
https://dl.ccf.org.cn/article/articleDetail.html?type=xhtx_thesis&_ack=1&id=6219452051015680
以上是無人機變聰明了!李學龍團隊創造機器說話的新紀元的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

同樣是圖生視頻,PaintsUndo走出了不一樣的路線。 ControlNet作者LvminZhang又開始整活了!這次瞄準繪畫領域。新項目PaintsUndo剛上線不久,就收穫1.4kstar(還在瘋狂漲)。項目地址:https://github.com/lllyasviel/Paints-UNDO透過這個項目,用戶輸入一張靜態圖像,PaintsUndo就能自動幫你生成整個繪畫的全過程視頻,從線稿到成品都有跡可循。繪製過程,線條變化多端甚是神奇,最終視頻結果和原始圖像非常相似:我們再來看一個完整的繪

AIxiv專欄是本站發布學術、技術內容的欄位。過去數年,本站AIxiv專欄接收通報了2,000多篇內容,涵蓋全球各大專院校與企業的頂尖實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或聯絡報道。投稿信箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com這篇論文的作者皆來自伊利諾大學香檳分校(UIUC)張令明老師團隊,包括:StevenXia,四年級博士生,研究方向是基於AI大模型的自動代碼修復;鄧茵琳,四年級博士生,研究方

AIxiv專欄是本站發布學術、技術內容的欄位。過去數年,本站AIxiv專欄接收通報了2,000多篇內容,涵蓋全球各大專院校與企業的頂尖實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或聯絡報道。投稿信箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com在人工智慧領域的發展過程中,對大語言模型(LLM)的控制與指導始終是核心挑戰之一,旨在確保這些模型既強大又安全地服務人類社會。早期的努力集中在透過人類回饋的強化學習方法(RL

乾杯!當論文討論細緻到詞句,是什麼體驗?最近,史丹佛大學的學生針對arXiv論文創建了一個開放討論論壇——alphaXiv,可以直接在任何arXiv論文之上發布問題和評論。網站連結:https://alphaxiv.org/其實不需要專門訪問這個網站,只需將任何URL中的arXiv更改為alphaXiv就可以直接在alphaXiv論壇上打開相應論文:可以精準定位到論文中的段落、句子:右側討論區,使用者可以發表問題詢問作者論文想法、細節,例如:也可以針對論文內容發表評論,例如:「給出至

如果AI模型給的答案一點也看不懂,你敢用嗎?隨著機器學習系統在更重要的領域中得到應用,證明為什麼我們可以信任它們的輸出,並明確何時不應信任它們,變得越來越重要。獲得對複雜系統輸出結果信任的一個可行方法是,要求系統對其輸出產生一種解釋,這種解釋對人類或另一個受信任的系統來說是可讀的,即可以完全理解以至於任何可能的錯誤都可以被發現。例如,為了建立對司法系統的信任,我們要求法院提供清晰易讀的書面意見,解釋並支持其決策。對於大型語言模型來說,我們也可以採用類似的方法。不過,在採用這種方法時,確保語言模型生

最近,被稱為千禧年七大難題之一的黎曼猜想迎來了新突破。黎曼猜想是數學中一個非常重要的未解決問題,與素數分佈的精確性質有關(素數是那些只能被1和自身整除的數字,它們在數論中扮演著基礎性的角色)。在當今的數學文獻中,已有超過一千個數學命題以黎曼猜想(或其推廣形式)的成立為前提。也就是說,黎曼猜想及其推廣形式一旦被證明,這一千多個命題將被確立為定理,對數學領域產生深遠的影響;而如果黎曼猜想被證明是錯誤的,那麼這些命題中的一部分也將隨之失去其有效性。新的突破來自MIT數學教授LarryGuth和牛津大學

語言模型真的能用於時序預測嗎?根據貝特里奇頭條定律(任何以問號結尾的新聞標題,都能夠用「不」來回答),答案應該是否定的。事實似乎也果然如此:強大如斯的LLM並不能很好地處理時序資料。時序,即時間序列,顧名思義,是指一組依照時間發生先後順序排列的資料點序列。在許多領域,時序分析都很關鍵,包括疾病傳播預測、零售分析、醫療和金融。在時序分析領域,近期不少研究者都在研究如何使用大型語言模型(LLM)來分類、預測和偵測時間序列中的異常。這些論文假設擅長處理文本中順序依賴關係的語言模型也能泛化用於時間序

AIxiv专栏是本站发布学术、技术内容的栏目。过去数年,本站AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com。引言近年来,多模态大型语言模型(MLLM)在各个领域的应用取得了显著的成功。然而,作为许多下游任务的基础模型,当前的MLLM由众所周知的Transformer网络构成,这种网
