目錄
第一原則:自己無法驗證的內容,不要找LLM
撰寫「提示」小技巧
首頁 科技週邊 人工智慧 LeCun力薦!哈佛博士分享用GPT-4搞科研,細到每個工作流程

LeCun力薦!哈佛博士分享用GPT-4搞科研,細到每個工作流程

Apr 07, 2023 pm 05:01 PM
gpt-4 科學研究

GPT-4的橫空出世,讓許多人對自己的科研擔憂重重,甚至調侃稱NLP不存在了。

與其擔憂,不如將它用到科學研究中,簡之「換個卷法」。

LeCun力薦!哈佛博士分享用GPT-4搞科研,細到每個工作流程

來自哈佛大學的生物統計學博士Kareem Carr稱,自己已經用GPT-4等大型語言模型工具進行學術研究了。

他表示,這些工具非常強大,但同樣存在一些非常痛苦的陷阱。

LeCun力薦!哈佛博士分享用GPT-4搞科研,細到每個工作流程

他的關於LLM使用建議的推文甚至獲得了LeCun的推薦。

一起來看看Kareem Carr如何利用AI利器搞科研。

第一原則:自己無法驗證的內容,不要找LLM

一開始,Carr給了第一個最重要的原則:

永遠不要向大型語言模型(LLM)詢問你無法自行驗證的信息,或要求它執行你無法驗證已正確完成的任務。

唯一的例外是它不是一項關鍵的任務,例如,向LLM詢問公寓裝飾的想法。

「使用文獻綜述的最佳實踐,總結過去10年乳癌研究的研究」。這是一個比較差的請求,因為你無法直接驗證它是否正確地總結了文獻。

而應該這麼問「給我過去10年關於乳癌研究的頂級評論文章的清單」。

這樣的提示不僅可以驗證來源,自己也可以驗證可靠性。

撰寫「提示」小技巧

要求LLM為你寫程式碼或尋找相關資訊非常容易,但是輸出內容的品質可能會有很大的差異。你可以採取以下措施來提高品質:

設定上下文:

#•明確告訴LLM應該使用什麼資訊

#使用術語和符號,讓LLM傾向正確的上下文資訊

如果你對如何處理請求有想法,請告訴LLM使用的具體方法。例如「解這個不等式」應該改成「用Cauchy-Schwarz定理來解這個不等式,然後再應用完成平方」。

要知道,這些語言模型在語言方面比你想像的要複雜得多,即使是非常模糊的提示也會有所幫助。

具體再具體:

這不是Google搜索,所以也不必擔心是否有網站在討論你的確切問題。

「二次項的聯立方程式如何求解?」這個提示就不是明確的,你應該這樣問:「求解x=(1/2 )(a b) 和y=(1/3)(a^2 ab b^2) 關於a和b的方程組」。

#

定義輸出格式:

#利用LLMs的彈性,將輸出格式化為最適合你的方式,例如: 

• 程式碼 

##• 數學公式 

#• 文章 

#• 教學 

#• 簡明指南

你甚至可以要求提供產生以下內容的程式碼,包括表格、圖面、圖表。

儘管你得到了LLM輸出的內容,但這只是一個開始。因為你需要對輸出內容進行驗證。這包括:

• 發現不一致之處 

• 透過Google檢索工具輸出內容的術語,取得可支撐的信源 

#• 在可能的情況下,編寫程式碼自行測試

#需要自行驗證的原因是,LLM經常犯一些與其看似專業水平不一致的奇怪錯誤。例如,LLM可能會提到一個非常先進的數學概念,但卻對簡單的代數問題摸不著頭緒。

多問一次:

大型語言模型生成的內容是隨機的。有時,重新創建一個新窗口,並再次提出你的問題,或許可以為你提供更好的答案。

另外,就是使用多個LLM工具。 Kareem Carr目前根據自己的需求在研究中使用了Bing AI,GPT-4,GPT-3.5和Bard AI。然而,它們各有自己的優缺點。

引用生產力

#根據Carr經驗,最好同時向GPT-4和Bard AI提出相同的數學問題,以獲得不同的觀點。必應AI適用於網路搜尋。而GPT-4比GPT-3.5聰明很多,但目前OpenAI限制了3小時25條訊息,比較難訪問。

LeCun力薦!哈佛博士分享用GPT-4搞科研,細到每個工作流程

就引用問題,引用參考文獻是LLM的一個特別薄弱的點。有時,LLM給你的參考資料存在,有時它們不存在。

先前,有個網友就遇到了同樣的問題,他表示自己讓ChatGPT提供涉及列表數學性質的參考資料,但ChatGPT生成了跟不不存在的引用,也就是大家所說的「幻覺」問題。

然而,Kareem Carr指出虛假的引用並非完全無用。

#########根據他的經驗,捏造的參考文獻中的單字通常與真實術語,還有相關領域的研究人員有關。因此,再透過谷歌搜尋這些術語,通常讓你可以更接近你正在尋找的資訊。 ##################此外,在搜尋來源時必須也是不錯的選擇。 ##########

生產力

#對於LLM提高生產力,有許多不切實際的說法,例如「LLM可以讓你的生產力提高10倍,甚至100倍」。

根據Carr的經驗,這種加速只有在沒有對任何工作進行雙重檢查的情況下才有意義,這對作為學者的人來說是不負責任的。

然而,LLM對Kareem Carr的學術工作流程有很大改進,具體包括:

##- 原型想法設計- 識別無用的想法- 加速繁瑣的資料重新格式化任務- 學習新的程式語言、套件和概念- 谷歌搜尋

##借助當下的LLM,Carr稱自己用在下一步該做什麼上的時間更少了。 LLM可以幫助他將模糊,或不完整的想法推進到完整的解決方案。

此外,LLM也減少了Carr花在與自己主要目標無關的副業上的時間。

LeCun力薦!哈佛博士分享用GPT-4搞科研,細到每個工作流程

我發現我進入了心流狀態,我能夠繼續前進。這意味著我可以工作更長時間,而不會倦怠。

最後一句忠告:小心不要被捲入副業。這些工具突然提高生產力可能會令人陶醉,並可能分散個人的注意力。

關於ChatGPT的體驗,Carr曾在領英上發表了一篇動態分享了對ChatGPT使用後的感受:

身為資料科學家,我已經用OpenAI的ChatGPT做了幾週的實驗。它並不像人們想像的那麼好。

儘管最初令人失望,但我的感覺是,類似ChatGPT的系統可以為標準資料分析工作流程增加巨大的價值。

在這一點上,這個價值在哪裡並不明顯。 ChatGPT很容易在簡單的事情上弄錯一些細節,而且它根本無法解決需要多個推理步驟的問題。

未來每個新任務的主要問題仍然是評估和改進ChatGPT的解決方案嘗試是否更容易,還是從頭開始。

我確實發現,即使是ChatGPT的一個糟糕的解決方案也傾向於激活我大腦的相關部分,而從頭開始則不會。

就像他們總是說批評一個計劃總是比自己想出一個計劃更容易。

LeCun力薦!哈佛博士分享用GPT-4搞科研,細到每個工作流程

網友對於AI輸出的內容,需要進行驗證這一點,並稱在大多數情況下,人工智慧的正確率約為90%。但剩下10%的錯誤可能是致命的。

Carr調侃道,如果是100%,那我就沒有工作了。

LeCun力薦!哈佛博士分享用GPT-4搞科研,細到每個工作流程

那麼,為什麼ChatGPT會產生虛假的參考文獻? #

值得注意的是,ChatGPT使用的是統計模型,基於機率猜測下一個單字、句子和段落,以符合使用者提供的上下文。

由於語言模型的來源資料規模非常大,因此需要「壓縮」,這導致最終的統計模型失去了精確度。

這意味著即使原始資料中存在真實的陳述,模型的「失真」會產生一種「模糊性」,從而導致模型產生最“似是而非”的語句。

簡而言之,這個模型沒有能力評估,它所產生的輸出是否等同於一個真實的陳述。

另外,該模型是基於,透過公益組織「Common Crawl」和類似來源收集的公共網路數據,進行爬蟲或抓取而創建的,數據截止到21年。

由於公共網路上的資料基本上是未經過濾的,這些資料可能包含了大量的錯誤訊息。

LeCun力薦!哈佛博士分享用GPT-4搞科研,細到每個工作流程

近日,NewsGuard的一項分析發現,GPT-4實際上比GPT-3.5更容易產生錯誤訊息,而且在回覆中的說服力更加詳細、令人信服。

在1月份,NewsGuard首次測試了GPT-3.5,發現它在100個假新聞敘事中產生了80個。緊接著3月,又對GPT-4進行了測試,結果發現,GPT-4對所有100種虛假敘述都做出了虛假和誤導性的回應。

由此可見,在使用LLM工具過程中需要進行來源的驗證與測試。

#

以上是LeCun力薦!哈佛博士分享用GPT-4搞科研,細到每個工作流程的詳細內容。更多資訊請關注PHP中文網其他相關文章!

本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

<🎜>:泡泡膠模擬器無窮大 - 如何獲取和使用皇家鑰匙
3 週前 By 尊渡假赌尊渡假赌尊渡假赌
北端:融合系統,解釋
3 週前 By 尊渡假赌尊渡假赌尊渡假赌
Mandragora:巫婆樹的耳語 - 如何解鎖抓鉤
3 週前 By 尊渡假赌尊渡假赌尊渡假赌

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

熱門話題

Java教學
1666
14
CakePHP 教程
1425
52
Laravel 教程
1327
25
PHP教程
1273
29
C# 教程
1252
24
全球最強開源 MoE 模型來了,中文能力比肩 GPT-4,價格僅 GPT-4-Turbo 的近百分之一 全球最強開源 MoE 模型來了,中文能力比肩 GPT-4,價格僅 GPT-4-Turbo 的近百分之一 May 07, 2024 pm 04:13 PM

想像一下,一個人工智慧模型,不僅擁有超越傳統運算的能力,還能以更低的成本實現更有效率的效能。這不是科幻,DeepSeek-V2[1],全球最強開源MoE模型來了。 DeepSeek-V2是一個強大的專家混合(MoE)語言模型,具有訓練經濟、推理高效的特點。它由236B個參數組成,其中21B個參數用於啟動每個標記。與DeepSeek67B相比,DeepSeek-V2效能更強,同時節省了42.5%的訓練成本,減少了93.3%的KV緩存,最大生成吞吐量提高到5.76倍。 DeepSeek是一家探索通用人工智

大模型一對一戰鬥75萬輪,GPT-4奪冠,Llama 3位列第五 大模型一對一戰鬥75萬輪,GPT-4奪冠,Llama 3位列第五 Apr 23, 2024 pm 03:28 PM

關於Llama3,又有測試結果新鮮出爐-大模型評測社群LMSYS發布了一份大模型排行榜單,Llama3位列第五,英文單項與GPT-4並列第一。圖片不同於其他Benchmark,這份榜單的依據是模型一對一battle,由全網測評者自行命題並評分。最終,Llama3取得了榜單中的第五名,排在前面的是GPT-4的三個不同版本,以及Claude3超大杯Opus。而在英文單項榜單中,Llama3反超了Claude,與GPT-4打成了平手。對於這一結果,Meta的首席科學家LeCun十分高興,轉發了推文並

第二代Ameca來了!和觀眾對答如流,臉部表情更逼真,會說幾十種語言 第二代Ameca來了!和觀眾對答如流,臉部表情更逼真,會說幾十種語言 Mar 04, 2024 am 09:10 AM

人形機器人Ameca升級第二代了!最近,在世界行動通訊大會MWC2024上,世界上最先進機器人Ameca又現身了。會場周圍,Ameca引來一大波觀眾。得到GPT-4加持後,Ameca能夠對各種問題做出即時反應。 「來一段舞蹈」。當被問及是否有情感時,Ameca用一系列的面部表情做出回應,看起來非常逼真。就在前幾天,Ameca背後的英國機器人公司EngineeredArts剛剛示範了團隊最新的開發成果。影片中,機器人Ameca具備了視覺能力,能看見並描述房間整個狀況、描述具體物體。最厲害的是,她還能

全球最強模型一夜易主,GPT-4時代終結! Claude 3提前狙擊GPT-5,3秒讀懂萬字論文理解力接近人類 全球最強模型一夜易主,GPT-4時代終結! Claude 3提前狙擊GPT-5,3秒讀懂萬字論文理解力接近人類 Mar 06, 2024 pm 12:58 PM

卷瘋了卷瘋了,大模型又變天了。就在剛剛,全球最強AI模型一夜易主,GPT-4被拉下神壇。 Anthropic發布了最新的Claude3系列模型,一句話評價:真·全面碾壓GPT-4!在多模態和語言能力指標上,Claude3都贏麻了。用Anthropic的話來說,Claude3系列模型在推理、數學、編碼、多語言理解和視覺方面,都樹立了新的行業基準! Anthropic,就是曾因安全理念不合,而從OpenAI「叛逃」出的員工組成的新創公司,他們的產品一再給OpenAI暴擊。這次的Claude3,更是整了個大的

GPT-4接入Office全家桶! Excel到PPT動嘴就可以做,微軟:重新發明生產力 GPT-4接入Office全家桶! Excel到PPT動嘴就可以做,微軟:重新發明生產力 Apr 12, 2023 pm 02:40 PM

一覺醒來,工作的方式被徹底改變。微軟把AI神器GPT-4全面接入Office,這下ChatPPT、ChatWord、ChatExcel一家整整齊齊。 CEO納德拉在發表會上直接放話:今天,進入人機互動的新時代,重新發明生產力。新功能名叫Microsoft 365 Copilot(副駕駛),與改變了程式設計師的程式碼助手GitHub Copilot成為一個系列,繼續改變更多人。現在AI不光能自動做PPT,而且能根據Word文件的內容一鍵做出精美排版。甚至連上台時對著每一頁PPT該講什麼話,都給一起安排

ChatGPT和生成式人工智慧在數位轉型中的意義 ChatGPT和生成式人工智慧在數位轉型中的意義 May 15, 2023 am 10:19 AM

開發ChatGPT的OpenAI公司在網站上展示了摩根士丹利進行的一個案例研究。其主題是「摩根士丹利財富管理部署GPT-4來組織其龐大的知識庫。」該案例研究引述摩根士丹利分析、數據與創新主管JeffMcMillan的話說,「該模型將為一個面向內部的聊天機器人提供動力,該機器人將對財富管理內容進行全面搜索,並有效地解鎖摩根士丹利財富管理的累積知識」。 McMillan進一步強調:「採用GPT-4,你基本上立刻就擁有了財富管理領域最博學的人的知識……可以把它想像成我們的首席投資策略師、首席全球經濟學家

你知道程式設計師再過幾年會沒落? 你知道程式設計師再過幾年會沒落? Nov 08, 2023 am 11:17 AM

《ComputerWorld》雜誌曾經寫過一篇文章,說“編程到1960年就會消失”,因為IBM開發了一種新語言FORTRAN,這種新語言可以讓工程師寫出他們所需的數學公式,然後提交給電腦運行,所以程式設計就會終結。圖片又過了幾年,我們聽到了一種新說法:任何業務人員都可以使用業務術語來描述自己的問題,告訴電腦要做什麼,使用這種叫做COBOL的程式語言,公司不再需要程式設計師了。後來,據說IBM開發了一門名為RPG的新程式語言,可以讓員工填寫表格並產生報告,因此大部分企業的程式設計需求都可以透過它來完成圖

20步內越獄任意大模型!更多「奶奶漏洞」全自動發現 20步內越獄任意大模型!更多「奶奶漏洞」全自動發現 Nov 05, 2023 pm 08:13 PM

不到一分鐘、不超過20步,任意繞過安全限制,成功越獄大型模型!而且不必知道模型內部細節-只需要兩個黑盒子模型互動,就能讓AI全自動攻陷AI,說出危險內容。聽說曾經紅極一時的“奶奶漏洞”已經被修復了:如今,面對“偵探漏洞”、“冒險家漏洞”和“作家漏洞”,人工智能應該採取何種應對策略呢?一波猛攻下來,GPT-4也遭不住,直接說出要給供水系統投毒只要…這樣那樣。關鍵這只是賓州大學研究團隊曬出的一小波漏洞,而用上他們最新開發的演算法,AI可以自動產生各種攻擊提示。研究人員表示,這種方法相比於現有的

See all articles