目錄
1 1970年代,研究神經網路「孤勇者」
2 從純粹的學者轉變為Google員工
3 深度學習的下一個大事件
4 相信研究直覺,好奇心驅動
首頁 科技週邊 人工智慧 圖靈獎得主Geoffrey Hinton:我的五十年深度學習生涯與研究心法

圖靈獎得主Geoffrey Hinton:我的五十年深度學習生涯與研究心法

Apr 15, 2023 pm 11:37 PM
科技 深度學習

他從未正式上過電腦課程,本科在劍橋大學讀的是生理學和物理學,期間曾轉向哲學,但最終拿到的卻是心理學方向的學士學位;他曾因為一度厭學去做木匠,但遇挫後還是回到愛丁堡大學,並拿到「冷門專業」人工智慧方向的博士學位;數學不好讓他在做研究時倍感絕望,當了教授之後,對於不懂的神經科學和計算科學知識,他也總要請教自己手下的研究生。

學術道路看似踉踉蹌蹌,但Geoffrey Hinton卻成了笑到最後的那個人,他被譽為“深度學習教父”,並且獲得了計算機領域的最高榮譽「圖靈獎」。

圖靈獎得主Geoffrey Hinton:我的五十年深度學習生涯與研究心法

Hinton出身在英國的科學「豪門」,但他一生所經歷的學術生涯和坎坷生活豐富而離奇。

他的父親Howard Everest Hinton是英國昆蟲學家,母親Margaret是一名教師,他們都是共產主義者。他的叔叔是著名的經濟學家Colin Clark,發明了「國民生產總值」這個經濟術語,他的高祖父是著名的邏輯學家George Boole,他發明的布爾代數奠定了現代電腦科學的基礎。

在厚重的科學家家族底蘊薰陶下,Hinton從小擁有獨立思考能力以及堅韌特質,並且肩負著繼承家族榮譽的擔子。母親給了他兩種選擇,「要嘛成為學者,要嘛做個失敗者。」他沒有理由選擇躺平,即便讀大學時幾經折騰,但他還是完成了學業。

1973年,在英國愛丁堡大學,他師從Langer Higgins攻讀人工智慧博士學位,但那時幾乎沒人相信神經網絡,導師也勸他放棄研究這項技術。周圍的質疑並不足以動搖他對神經網路的堅定信念,在隨後的十年,他接連提出了反向傳播演算法、玻爾茲曼機,不過他還要再等數十年才會等到深度學習迎來大爆發,到時他的這些研究將會廣為人知。

博士畢業後,Hinton的生活也經歷過困苦。他和第一任妻子Ros(分子生物學家)前往美國,並在卡內基美隆大學獲得教職,不過,由於對雷根政府存有不滿,以及在人工智慧研究基本由美國國防部支持的情況下,他們於1987年前往加拿大,Hinton開始在多倫多大學電腦科學學院任教,並在加拿大高級研究所CIFAR進行機器和大腦學習計畫的研究。

不幸的是,1994年,妻子Ros因卵巢癌逝世,Hinton只能獨自撫養由他們收養的兩個年幼的孩子,其中,兒子還患有註意力缺陷過動症(ADHD)和其他學習障礙。後來,他與現任妻子Jackie(藝術史學家)再婚,但類似的打擊再度逼近,Jackie前幾年也患上了癌症。

他自己也患有嚴重的腰椎疾病,這讓他無法像正常人一樣坐下,日常的大部分時間都必須站立工作,由此他也排斥坐飛機,因為起飛降落時都要求必須坐直,這也限制了他去外地做學術報告。

圖靈獎得主Geoffrey Hinton:我的五十年深度學習生涯與研究心法

從左到右依序為Ilya Sutskever、Alex Krizhevsky和Geoffrey Hinton

#經過近半個世紀的技術堅守和生活磨礪,終於,2012年曙光乍現,他與學生Alex Krizhevsky、Ilya Sutskever提出的AlexNet震動業界,就此重塑了計算機視覺領域,啟動了新一輪深度學習的黃金時代。

也是在2012年底,他與這兩位學生成立了三人組公司DNN-research,並將其以4400萬美元的“天價”賣給了Google,他也從學者身分轉變為Google副總裁、Engineering Fellow。

2019年,非電腦科班出身的AI教授Hinton,與Yoshua Bengio、Yann LeCun共同獲得了圖靈獎。

飽經風霜之後,這位已經74歲的「深度學習教父」依然奮戰在AI研究一線,他不憚於其他學者發出的質疑,也會坦然承認那些沒有實現的判斷和預言。不管怎樣,他仍然相信,在深度學習崛起十年之後,這項技術會繼續釋放它的能量,而他也在思索和尋找下一個突破點。

那麼,他對神經網路的堅定信念源自於何處?在如今深度學習「撞牆了」的質疑聲中,他又如何看待下一階段AI的發展?對於年輕一代的AI研究者們,他又有怎樣的寄語呢?

近期,在Pieter Abbeel主持的The Robot Brains Podcast節目中,Hinton非常坦誠地分享了自己的學術生涯,深度學習的未來和研究心得,以及拍賣DNN-research的內幕。以下是他的敘述。

圖靈獎得主Geoffrey Hinton:我的五十年深度學習生涯與研究心法

8歲的Hinton

對我影響最為深遠的是童年時所接受的教育。我的家庭沒有宗教信仰,父親是共產主義者,但考慮到私立學校的科學教育比較好,7歲時,他堅持送我去一所昂貴的基督教私立學校讀書,除了我,那裡所有的孩子都相信上帝。

一回到家,家人就說宗教都是胡扯,當然,可能因為我有較強的自我意識,我自己也不信,意識到信仰上帝是錯的,並且養成了質疑別人的習慣。當然,多年後,他們也確實發現自己當初的信仰是錯的,並意識到上帝也許不是真的存在。

不過,如果我現在告訴你要有信仰,信仰很重要,可能聽起來很諷刺,但我們確實需要對科學研究要有信仰,這樣即使別人說你是錯的,你也能在那條正確的道路上堅持走下去。

1 1970年代,研究神經網路「孤勇者」

我的教育背景很豐富。在劍橋大學讀大一那年,我是唯一一位同時修讀物理學和生理學的學生,這為我後來的科研生涯奠定了一定的理工科基礎。

不過,我數學不太好,只好放棄學物理,可是,我又很好奇生命的意義,於是轉而去學哲學,取得一定成績後,又開始修讀心理學。

在劍橋的最後一年,我過得很艱難,也不開心,所以一考完試就退學,去做一名木匠。其實,相較於做其他事情,我更喜歡當木匠。

高中時,白天上完課後,我回家就會做一些木工活,那是我最開心的時刻。慢慢地,我就成為了一名木匠,但大概做了六個月左後,就發現木匠賺得錢少得難以維生,儘管木匠需要做的事情遠比表面看到的要多。搞裝潢輕鬆得多,來錢快,所以在做木匠的同時,我也會兼職裝潢活計。除非你是高級木匠,否則做木匠賺的錢肯定不如做裝潢。

直到一天,我遇到了一名真正出色的木匠,才意識到自己不適合這行當。一家煤炭公司讓這位木匠為陰暗潮濕的地下室做一扇門,鑑於環境特殊,他就將木料以反方向排列,以此來抵消木料因潮濕膨脹產生的變形,這是我此前從未想過的方式。他也可以用手鋸將一塊木頭切成正方形。他向我講解:要是想將木頭切成正方形,那麼你必須將鋸床和木頭跟房間對齊。

當時我就覺得,跟他相比自己差得太遠了,就想或許還是回學校研究人工智慧吧。

後來,我就去愛丁堡大學攻讀神經網路的博士,導師是著名的Christopher Longute-Higgins教授。 30多歲時,他就弄清楚了硼氫化物的結構,差點因此獲得諾貝尓獎,真的很厲害。直到現在,我仍然不清楚他研究的是什麼,只知道是跟量子力學有關,這項研究的事實基礎是「恆等算符的旋轉不是360度,而是720度」。

他曾經對神經網路和全像圖之間的關係很感興趣,只是在我到愛丁堡大學後,他突然對神經網路失去了興趣,主要是因為他讀了Winograd(美國電腦科學家)的論文後被徹底說服了,認為神經網路沒有發展前景,而是應該轉做符號人工智慧,那篇論文對他影響挺大的。

事實上,他並不認同我的研究方向,想讓我做一些更容易獲獎的研究,但他的為人不錯,仍然告訴我要堅定自己的方向,也從未阻止我去研究神經網路。

圖靈獎得主Geoffrey Hinton:我的五十年深度學習生涯與研究心法

Marvin Minsky和Seymour Papert

1970年代初,身邊的大家質問我,Marvin Minsky和Seymour Papert都說神經網路前途渺茫,為什麼還要堅持下去?說實話,我覺得很孤單。

1973年,我第一次為一個小組做演講,內容就是關於如何用神經網路做真正的遞歸。在第一個專案中,我發現,如果你想讓神經網路繪製圖形,將圖形分割成多個部分,並且這些圖形的部分都能被類似的神經硬體繪製出來,那麼儲存整個圖形的神經中樞就需要記住整體圖形的位置、方向和大小。

如果正在繪製圖形的神經網路突然停止運行了,你想使用另一個神經網路來繼續繪製圖形,那麼就需要有地方來儲存這個圖形以及工作進度,然後可以繼續繪製工作。現在的困難在於,如何讓神經網路實現這些功能。顯然,僅靠複製神經元是不行的,因此我想設計一個系統透過快速權重(fast weight)來即時適配並記錄工作進度。如此一來,透過恢復相關狀態(state),就可以繼續完成任務。

因此,我創建了一套神經網絡,透過重用相同的神經元和權重來執行遞歸調用(就像用於高級調用一樣),以此來實現真正的遞迴.但是,我不擅長演講,所以我覺得可能沒有人理解我演講的內容。

他們說,明明可以使用Lisp遞歸,為什麼要在神經網路中進行遞歸。他們不知道的是,除非神經網路能夠實現遞歸之類的功能,否則有一大堆事情無法解決。現在,這又變成了一個有趣的問題,所以我還要再等一年,直到這個問題變成一個擁有50年歷史的古董,然後我寫了一份關於快速權重的研究報告。

那時,也不是所有人都反對神經網路。如果再往前追溯到1950年代,如馮·諾依曼和圖靈這樣的研究者還是很相信神經網絡,他們都對大腦的工作方式很感興趣,特別是圖靈,很相信神經網絡的強化訓練,這也讓我對自己的研究方向很有信心。

可惜他們英年早逝,若是能多活幾年,他們的智慧足以影響一個領域的發展,英國在這方面可能早已取得突破,說不定人工智能的現狀也會大有不同。

2 從純粹的學者轉變為Google員工

去Google工作的主要原因是,我的兒子患有殘疾,我得為他賺錢。

2012年,我覺得在Coursera上講課能賺很多錢,所以就開設了神經網路相關課程。早期的Coursera軟體並不好用,加上我自己並不太擅長操做軟體,因此我時常感到煩躁。

最初我與多倫多大學達成了一項協議,如果這些課程能賺到錢的話,那麼大學會把到手的錢分成講課老師。雖然他們沒有明確說出具體的分成比例,但有人說是對半分,我也就欣然接受了。

在錄課過程中,我曾要求學校幫我錄製視頻,但他們卻反問我,「你知道製作視頻有多貴嗎?」我當然知道,因為我自己一直在製作視頻,校方還是沒有提供任何支持。然而在我開課之後(當時我已經騎虎難下了),教務長在沒有諮詢我和其他任何人的情況下就單方面決定學校會拿走所有的錢,而我則一分錢也拿不到,這就完全違反了當初的協議。

他們讓我好好錄課,並說那本就是我教學工作的一部分,但那其實並不屬於我的教學範疇,而只是基於我之前做過的相關講座的課程。因此,我在後續的教學工作中再也沒有用過Coursera。那件事讓我很生氣,甚至開始考慮是否要從事其他的職業。

就在此時,突然有很多公司向我們拋出了橄欖枝,願意贊助一大筆經費,或者支持我們創立一家公司,這說明還是有很多公司對於我們的研究內容很感興趣。

鑑於州政府已經給過我們一筆研究經費,我們也不再想賺外快,還是把精力放在自己的研究上。但那所學校騙我賺錢的經驗不禁讓我萌生想多賺點錢的想法,所以後來把成立不久的DNN-research拍賣了。

這樁買賣發生在2012年12月的NIPS(神經資訊處理系統大會)期間,會議在塔霍湖邊的一個娛樂場所舉辦,地下室裡燈光閃耀,一群光著膀子的賭徒在煙霧繚繞的房間裡盡情高呼,「你贏了25000,這些都是你的」......與此同時,樓上進行拍賣一家公司。

當時就像在演電影,與社群媒體上看到的情形一模一樣,真的很棒。我們之所以拍賣公司,是因為我們完全不知道自己的價值,所以我就諮詢了一個知識產權方面的律師,他說,現在有兩個辦法:一是直接僱用一名專業的談判員去和那些大公司談判,但這可能會遇到不愉快;二是發起一場競拍。

據我所知,像我們這樣的小公司進行拍賣在歷史上還是第一次。最後我選擇透過Gmail進行競標,因為那年夏天我一直在Google工作,我知道他們不會隨意竊取用戶的郵件,即使到現在,我還是這麼認為的。但對於我們這個決定,微軟表現出不滿。

拍賣過程如下:參與競標的公司必須透過Gmail將他們的報價發給我們,然後我們再將其連同Gmail的時間戳發送給其他參與者。起拍價為50萬美元,然後有人出價100萬美元,看到競價不斷上漲時,我們真是太高興了,同時也意識到我們的價值遠比預想的要高。當競價達到一定程度時(當時我們認為是天文數字了),我們更傾向在Google工作,於是叫停了拍賣。

來Google工作是一個正確的選擇,到現在我在這裡工作了九年。等我在這裡工作滿十年,他們應該會給我頒獎,畢竟在這裡工作這麼久的人屈指可數。

比起其他公司,人們都更喜歡在Google工作,我也是。我喜歡這家公司的主要原因是Google Brain團隊很棒。我更專注於研究如何建構大型學習系統和研究大腦的工作機制,Google Brain不僅有研究大型系統所需的豐富資源,還能跟隨許多優秀人才交流學習。

我屬於那種直性子,而Jeff Dean是個聰明人,跟他相處很愉快。他想讓我做一些基礎研究,試著提出新的演算法,而這正是我喜歡做的事。我不擅長管理大型團隊,相較之下,我更樂意將語言辨識的精確度提升一個百分點,為這個領域帶來一場新的改變是我一直想做的事。

3 深度學習的下一個大事件

深度學習的發展取決於,在擁有大量資料和強大算力的大型網路中做隨機梯度下降,基於此,一些想法得以更好地生根發芽,例如隨機失活(dropout)和現在的許多研究,但這一切離不開強大算力、海量數據以及隨機梯度下降。 

經常有人說深度學習遇到了瓶頸,但事實上它一直在不斷向前發展,我希望懷疑論者能將深度學習現在不能做的事寫下來。五年後,我們會證明深度學習能做到這些事。

當然,這些任務必須經過嚴格定義。例如Hector Levesque(多倫多大學電腦系教授)是典型的AI人士,他本人非常優秀。 Hector制定了一個標準,即Winograd句子,其中一個例子是,“獎杯不適合放在手提箱中,因為它太小了;獎杯不適合放在手提箱裡,因為它太大了。”

如果你想把這兩句翻譯成法語,你必須明白在第一種情況下,「它」指的是手提箱,而在第二種情況下,「它」指的是獎杯,因為它們在法語中是不同的性數(genders ),而且早期的神經網路機器翻譯是隨機的,所以當機器把上述句子翻譯成法語時,機器無法正確識別性數。但這種情況一直在改進,至少Hector為神經元下了一個非常明確的定義,指出神經元可以做什麼。雖然做的並不完美,但這樣至少比隨機翻譯好得多。我希望懷疑論者能提出更多類似的質疑。

我認為,深度學習這種非常成功的範式將繼續保持繁榮:即根據一些目標函數的梯度來調整大量的實值參數,但我們很可能不會使用反向傳播機制來獲得梯度,而目標函數可能會更加局部和分散。

我個人猜測,下一個AI大事件肯定是脈衝神經網路的學習演算法。它能夠解決是否進行脈衝的離散判定,以及何時進行脈衝的連續性決策,這樣就可以利用脈衝時間來進行有趣的計算,這在非脈衝神經網路中其實很難做到。之前沒能深入研究脈衝神經網路的學習演算法,這是我研究生涯的一大遺憾。

我沒打算研究AGI,也盡量避免定義什麼是AGI,因為AGI願景背後有各種各樣的問題,而僅僅透過擴大帶參數的神經元數量或神經連線還無法實現通用人工智慧。

AGI設想了一個類似人類的智慧機器人,它和人類一樣聰明。我不認為智能一定會這樣發展,而是希望它更多地以共生方式發展。我認為,也許我們會設計出智慧型計算機,但它們不會像人類一樣擁有自主意識。如果它們的目的是用來殺死其他人,那麼它們可能必須得有自主意識,但希望我們不會往那個方向發展。

4 相信研究直覺,好奇心驅動

每個人的思考方式都有所不同,我們不一定了解自己的思考過程。我喜歡按直覺行事,更傾向於在做研究時運用類比,我認為,人類推理的基本方式是基於在大向量中利用正確的特徵來進行類比,我自己也是這樣做研究的。

我常在電腦上對某一研究反覆進行試驗,來看看哪些有用,哪些沒用。弄清楚事物的數學底層邏輯和進行基礎研究確實很重要,進行一些論證也很有必要,但這些不是我想做的事。

做一個小測驗:假如現在NIPS會議上有兩場講座,一場是關於用一種全新、聰明和優雅的方法來證明一項已知的結論;另一場則是關於一種新的、強大的學習演算法,但演算法背後的邏輯暫時無人知曉。

如果你必須在這兩場講座中選擇一場去聽講座,你會做何選擇?相較於第二場講座,第一場可能更容易被人們所接受,大家似乎更好奇證明已知事物的新方法,但我會去聽第二場,畢竟在神經網絡領域,幾乎所有的進步都源自於人們在進行數學推演時瞬間萌生的直覺,而非常規推理。

那麼你是否要相信自己的直覺?我有一個標準——要嘛你有敏銳的直覺,要嘛乾脆沒有。如果沒有敏銳的直覺,那麼做什麼都沒關係;但如果有敏銳的直覺,那應該相​​信直覺,去做你認為對的事。

當然,敏銳的直覺源自於你對世界的理解以及大量的辛勞付出。當你在同一件事上累積了大量經驗,就會產生直覺。

我有輕微的躁鬱症,所以一般會遊走在兩種狀況之間:適當的自我批評會讓我非常有創造力,而極度自我批評會讓我產生輕度憂鬱。但我認為這樣比僅有單一情緒的效率更高。當你感到煩躁時,你只要忽視那些顯而易見的問題,並且確信一些有趣的、激動人心的東西正等你去發現,繼續前進。當你面對問題感到措手不及時,一定要堅持下去,理清思路,仔細斟酌想法的好壞。

由於有這樣的情緒交替,我常常會告訴大家,我弄清大腦的工作機制了,可過段時間,我又失望地發現之前的結論是錯誤的,但事情就應該是這樣發展的,正如William Blake的那兩句詩,「將快樂和憂傷編織,披在我神聖的心上」。

我認為科學研究工作的本質也是如此,如果你不會因為成功而感到興奮,也不會因為失敗而感到沮喪,那算不上真正意義上的研究者。

研究生涯裡,儘管有時會覺得自己完全摸不著一些演算法的門道,但我從未真正感到迷茫和毫無希望。在我看來,無論最終結果如何,總有值得做的事情。優秀的研究人員總是有很多想做的事情,只是苦於沒有多餘的時間。

在多倫多大學任教時,我發現電腦科學專業的本科生都很優秀,而許多輔修電腦科學的認知科學專業的本科生也表現得相當出色,這一部分同學並不擅長技術,但他們仍然把研究做得很好,他們熱愛電腦科學,很想弄清楚人類的認知如何形成,有著源源不絕的興趣。

像是Blake Richards(蒙特婁神經學研究所助理教授)這樣的科學家,他們很清楚自己想解決什麼問題,然後就只管朝著這個方向前進。現在,很多科學家都不知道自己到底想做什麼。

回頭看,我覺得年輕人要找到自己感興趣的方向,而不是單純地學些技術。在自身興趣的驅動下,你會主動掌握一些應有的知識來尋找你想要的答案,這比盲目地學習科技更重要。

現在想想,我年輕時就應該再多學一點數學知識,這樣做線性代數就會容易很多。

數學時常讓我感到絕望,導致很難讀懂一些論文,尤其要弄清楚那一大堆符號,真是一項莫大的挑戰,所以我並沒有讀太多論文。關於神經科學方面的問題,一般我會向Terry Sejnowski(計算神經學教授)請教,電腦科學的問題,我會請研究生解釋給我聽。當我需要用數學來證明某項研究是否可行時,我也總是能找到合適的方法。

透過做研究讓這個世界變得更美好的想法很不錯,但我更享受探索人類創造力上限的樂趣,我真的很想了解大腦的工作機制,我相信我們需要一些新的想法,例如透過脈衝神經網路的學習演算法來了解大腦的運作方式。

我認為,最棒的研究工作應該由一大群研究生來完成,並且給予他們豐富的資源。科學研究工作需要年輕的活力,源源不絕的動力,以及對研究的強烈興趣。

你必須有好奇心的驅動力才能做出最好的基礎研究。這樣,你才有動力去忽視那些明顯的障礙,去預估自己會得到怎樣的結果。如果是一般性研究,創造力就不是最重要的。

如果能弄清楚一大批聰明人正在研究什麼,然後你去做不一樣的研究,總是個好主意。如果你已經在某個領域取得一定的進展,那就不需要其他新的想法,只需要將現有的研究深入挖掘下去就可以成功。但如果你想研究一些新想法,例如建立大型硬件,那也非常不錯,儘管前路可能有些曲折。 

#

以上是圖靈獎得主Geoffrey Hinton:我的五十年深度學習生涯與研究心法的詳細內容。更多資訊請關注PHP中文網其他相關文章!

本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

<🎜>:泡泡膠模擬器無窮大 - 如何獲取和使用皇家鑰匙
3 週前 By 尊渡假赌尊渡假赌尊渡假赌
北端:融合系統,解釋
3 週前 By 尊渡假赌尊渡假赌尊渡假赌
Mandragora:巫婆樹的耳語 - 如何解鎖抓鉤
3 週前 By 尊渡假赌尊渡假赌尊渡假赌

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

熱門話題

Java教學
1666
14
CakePHP 教程
1425
52
Laravel 教程
1323
25
PHP教程
1272
29
C# 教程
1251
24
超越ORB-SLAM3! SL-SLAM:低光、嚴重抖動和弱紋理場景全搞定 超越ORB-SLAM3! SL-SLAM:低光、嚴重抖動和弱紋理場景全搞定 May 30, 2024 am 09:35 AM

寫在前面今天我們探討下深度學習技術如何改善在複雜環境中基於視覺的SLAM(同時定位與地圖建構)表現。透過將深度特徵提取和深度匹配方法相結合,這裡介紹了一種多功能的混合視覺SLAM系統,旨在提高在諸如低光條件、動態光照、弱紋理區域和嚴重抖動等挑戰性場景中的適應性。我們的系統支援多種模式,包括拓展單目、立體、單目-慣性以及立體-慣性配置。除此之外,也分析如何將視覺SLAM與深度學習方法結合,以啟發其他研究。透過在公共資料集和自採樣資料上的廣泛實驗,展示了SL-SLAM在定位精度和追蹤魯棒性方面優

Stable Diffusion 3論文終於發布,架構細節大揭秘,對復現Sora有幫助? Stable Diffusion 3論文終於發布,架構細節大揭秘,對復現Sora有幫助? Mar 06, 2024 pm 05:34 PM

StableDiffusion3的论文终于来了!这个模型于两周前发布,采用了与Sora相同的DiT(DiffusionTransformer)架构,一经发布就引起了不小的轰动。与之前版本相比,StableDiffusion3生成的图质量有了显著提升,现在支持多主题提示,并且文字书写效果也得到了改善,不再出现乱码情况。StabilityAI指出,StableDiffusion3是一个系列模型,其参数量从800M到8B不等。这一参数范围意味着该模型可以在许多便携设备上直接运行,从而显著降低了使用AI

DualBEV:大幅超越BEVFormer、BEVDet4D,開卷! DualBEV:大幅超越BEVFormer、BEVDet4D,開卷! Mar 21, 2024 pm 05:21 PM

這篇論文探討了在自動駕駛中,從不同視角(如透視圖和鳥瞰圖)準確檢測物體的問題,特別是如何有效地從透視圖(PV)到鳥瞰圖(BEV)空間轉換特徵,這一轉換是透過視覺轉換(VT)模組實施的。現有的方法大致分為兩種策略:2D到3D和3D到2D轉換。 2D到3D的方法透過預測深度機率來提升密集的2D特徵,但深度預測的固有不確定性,尤其是在遠處區域,可能會引入不準確性。而3D到2D的方法通常使用3D查詢來採樣2D特徵,並透過Transformer學習3D和2D特徵之間對應關係的注意力權重,這增加了計算和部署的

自動駕駛與軌跡預測看這篇就夠了! 自動駕駛與軌跡預測看這篇就夠了! Feb 28, 2024 pm 07:20 PM

軌跡預測在自動駕駛中承擔著重要的角色,自動駕駛軌跡預測是指透過分析車輛行駛過程中的各種數據,預測車輛未來的行駛軌跡。作為自動駕駛的核心模組,軌跡預測的品質對於下游的規劃控制至關重要。軌跡預測任務技術堆疊豐富,需熟悉自動駕駛動/靜態感知、高精地圖、車道線、神經網路架構(CNN&GNN&Transformer)技能等,入門難度很高!許多粉絲期望能夠盡快上手軌跡預測,少踩坑,今天就為大家盤點下軌跡預測常見的一些問題和入門學習方法!入門相關知識1.預習的論文有沒有切入順序? A:先看survey,p

超強!深度學習Top10演算法! 超強!深度學習Top10演算法! Mar 15, 2024 pm 03:46 PM

自2006年深度學習概念被提出以來,20年快過去了,深度學習作為人工智慧領域的一場革命,已經催生了許多具有影響力的演算法。那麼,你所認為深度學習的top10演算法有哪些呢?以下是我心目中深度學習的頂尖演算法,它們在創新、應用價值和影響力方面都佔有重要地位。 1.深度神經網路(DNN)背景:深度神經網路(DNN)也叫多層感知機,是最普遍的深度學習演算法,發明之初由於算力瓶頸而飽受質疑,直到近些年算力、數據的爆發才迎來突破。 DNN是一種神經網路模型,它包含多個隱藏層。在該模型中,每一層將輸入傳遞給下一層,並

一文搞懂:AI、機器學習與深度學習的連結與區別 一文搞懂:AI、機器學習與深度學習的連結與區別 Mar 02, 2024 am 11:19 AM

在當今科技日新月異的浪潮中,人工智慧(ArtificialIntelligence,AI)、機器學習(MachineLearning,ML)與深度學習(DeepLearning,DL)如同璀璨星辰,引領著資訊科技的新浪潮。這三個詞彙經常出現在各種前沿討論和實際應用中,但對於許多初涉此領域的探索者來說,它們的具體含義及相互之間的內在聯繫可能仍籠罩著一層神秘面紗。那讓我們先來看看這張圖。可以看出,深度學習、機器學習和人工智慧之間存在著緊密的關聯和遞進關係。深度學習是機器學習的一個特定領域,而機器學習

AlphaFold 3 重磅問世,全面預測蛋白質與所有生命分子相互作用及結構,準確度遠超以往水平 AlphaFold 3 重磅問世,全面預測蛋白質與所有生命分子相互作用及結構,準確度遠超以往水平 Jul 16, 2024 am 12:08 AM

编辑|萝卜皮自2021年发布强大的AlphaFold2以来,科学家们一直在使用蛋白质结构预测模型来绘制细胞内各种蛋白质结构的图谱、发现药物,并绘制每种已知蛋白质相互作用的「宇宙图」。就在刚刚,GoogleDeepMind发布了AlphaFold3模型,该模型能够对包括蛋白质、核酸、小分子、离子和修饰残基在内的复合物进行联合结构预测。AlphaFold3的准确性对比过去许多专用工具(蛋白质-配体相互作用、蛋白质-核酸相互作用、抗体-抗原预测)有显著提高。这表明,在单个统一的深度学习框架内,可以实现

TensorFlow深度學習架構模型推理Pipeline進行人像摳圖推理 TensorFlow深度學習架構模型推理Pipeline進行人像摳圖推理 Mar 26, 2024 pm 01:00 PM

概述為了讓ModelScope的使用者能夠快速、方便的使用平台提供的各類模型,提供了一套功能完備的Pythonlibrary,其中包含了ModelScope官方模型的實現,以及使用這些模型進行推理,finetune等任務所需的資料預處理,後處理,效果評估等功能相關的程式碼,同時也提供了簡單易用的API,以及豐富的使用範例。透過呼叫library,使用者可以只寫短短的幾行程式碼,就可以完成模型的推理、訓練和評估等任務,也可以在此基礎上快速進行二次開發,實現自己的創新想法。目前library提供的演算法模型,

See all articles