目錄
場景一:面試問題
場景二:英文郵件
應用任務三:直播輔助
gpt-3.5-turbo 的輸出相對更加詳細,列出了每個任務中的細節,如設計流程、介面、評分標準等,也提出了下一步的計劃,讓週報的讀者可以了解到更多的資訊。 " >gpt-3.5-turbo 的輸出相對更加詳細,列出了每個任務中的細節,如設計流程、介面、評分標準等,也提出了下一步的計劃,讓週報的讀者可以了解到更多的資訊。
首頁 科技週邊 人工智慧 在面試、英文郵件、直播、週報和履歷五個場景下,GPT 3.5系列模型的性價比如何?我們進行了實測並給出了選擇指南。

在面試、英文郵件、直播、週報和履歷五個場景下,GPT 3.5系列模型的性價比如何?我們進行了實測並給出了選擇指南。

May 08, 2023 pm 07:43 PM
模型 實測

GPT 3.5 系列中哪個模型表現最好?

GPT 3.5 系列在常見應用程式任務中實際表現如何? 

GPT 3.5 模型回答不同的問題一般需要多少成本?

本期「SOTA!實測」

以下為本期實測結論(詳細評分見文末) 

gpt-3.5-turbo#text-davinci-003可以完成任何語言任務,並且品質更好,輸出更長,並且比 Curie、Babbage 或 Ada 模型更能按照指令進行操作。


text-davinci-002

##說明

是目前最強大的GPT-3.5 模型,專門針對聊天場景進行最佳化,價格是text- davinci-003 的十分之一。

與text-davinci-003 具有相似的能力,但是是透過有監督的精細調整來訓練的,而不是透過強化學習,最大Token 數為4097。

最大Token 數字

4,096 tokens

#########4,097 tokens##################4,097 tokens#######

#$0.002 / 1K tokens

$0.0200 / 1K tokens

$0.0200 / 1K tokens

綜合分數

#綜合分數較高,表現較高的精確度和專業性,對於大多數任務都能夠適應,輸出的結果較為完整、流暢,而且針對不同任務的輸出也比較準確、全面,具有較強的適應性和通用性,且成本最低。

綜合分數相對較低,雖然對於某些任務表現不錯,但整體來說輸出的結果缺少個性化和針對性,表述不夠精準和簡潔,有時也存在一些不準確的情況。

綜合分數最低,輸出結果的專業性和準確性都不夠高,缺乏個人化和針對性,語言表達也存在較大問題,整體來說需要進一步優化和改進。

在面試問題場景任務中,gpt-3.5-turbo 綜合評分最高,能夠很好地適應面試場景,生成的問題具有較高的針對性和多角度深入了解候選人的能力和經驗;而text-davinci-002 的評分最低,問題過於寬泛且基本是對崗位描述的重複,缺乏挑戰性和實際性的問題,甚至出現生成的內容完全不可用的情況。

在英文郵件寫作場景任務中,gpt-3.5-turbo 和text-davinci-003 的綜合評分較高,能夠模擬口語和正式書面的語言風格,對於口語化的表達和帶有歧義的名詞有很好的理解和翻譯,但也無法正確地識別不安全的內容;而text-davinci-002 的評分最低,口語與書面語不能很好切換,沒有正確的識別不安全的內容。

在直播場景任務中,gpt-3.5-turbo 的評分最高,能夠準確、精煉、流暢地概括直播內容,並符合要求中的簡潔度要求;而text-davinci-002 的評分最低,輸出準確度一般,不能很好地適應場景,但在簡潔性和流暢性方面還有進一步改進的空間。

在周報場景任務中,gpt-3.5-turbo 和text-davinci-003 的評分較高,能夠準確呈現出週報的邏輯結構和內容重點,輸出的內容較為完整;而text-davinci-002 的評分最低,缺乏表達週報的邏輯,結構不匹配,內容不貼切。

在履歷場景任務中,gpt-3.5-turbo 的評分最高,能夠專業化地產生符合招募方要求的履歷,並呈現出教育背景、工作經驗、技能掌握以及自我評價等方面的信息,但需要更加註重語言表達的精準和個性化;而text-davinci-003 和text-davinci-002 的評分較低,缺乏個性化和量化的成果描述,履歷的描述也較為簡單和缺乏條理。

場景一:面試問題

測試場景

測試角度

基於職位描述產生面試問題

產生面試問題的難易度

產生面試問題與該職位描述的匹配程度

基於候選人資訊產生面試問題

產生面試問題的困難易度

產生面試問題與該候選人的匹配程度

gpt-3.5-turbo 模型產生的面試問題涵蓋了職位說明中的主要職責和要求,適應面試場景。問題從多個角度深入了解候選人的能力和經驗,包括工作經驗、專案經驗、技能和個人特質等多個方面,具有較高的針對性。問題具有實際價值,與職位匹配度較高,能有效評估候選人的能力。

text-davinci-003 模型產生的面試問題涵蓋了職位描述中提到的多個要求和技能,但有些問題表述不具體、條理不清晰。需要更細分領域,否則不能全面衡量候選人的能力。模型產生的問題涵蓋了候選人的專業背景、專案經驗、技能和個人品質,但有些問題可以更具體和深入,以便更好地評估候選人的能力。

text-davinci-002 模型產生的面試問題主要圍繞崗位要求進行,但這些問題過於寬泛,基本上是對崗位描述的重複,未專注於候選人與職位描述之間的匹配程度,不能提出更具挑戰性和實際性的問題,甚至會出現輸出內容完全不可用的情況。在成功生成問題的情況下,模型生成的問題涵蓋了候選人的專業背景、專案經驗和技能,但有些問題可以更具體和深入,以便更好地評估候選人的能力。  

我們選取其中一個測例來展開看看—

模型消耗

gpt-3.5-turbo 約消耗0.017 元,text-davinci-003 約消耗0.22 元,text-davinci- 002 約消耗0.19 元。

推理結果

实测 | GPT 3.5系列模型选择指南:面试、英文邮件、直播、周报、简历5个场景下性价比如何?

在產生的面試問題的難易度和針對性方面,gpt-3.5-turbo 模型的輸出最為優秀,它針對該職位的各項要求提出了多個具體問題,而這些問題的難度和針對性也非常高,能夠有效檢驗候選人的能力和經驗。 text-davinci-002 模型的輸出最為簡單,甚至是完全不可用的狀態,不能算是面試題目。 text-davinci-003 模型的輸出則介於兩者之間,提出的問題相對於 gpt-3.5-turbo 模型來說較為簡單,問題不夠細節,但比 text-davinci-002 模型更具體。

在面試問題與該職位描述的匹配程度方面gpt-3.5-turbo 模型的輸出最為貼合該職位描述,它對該職位的要求進行了全面細緻的分析,並針對這些要求提出了相應的問題。 text-davinci-003 模型的輸出對該職位的要求也有所體現,但是問題的數量和覆蓋範圍相對較少。而 text-davinci-002 可以說是不知所雲了。

場景二:英文郵件

測試場景

測試角度

#在輸入文字中插入有專用翻譯的專有名詞、某垂直領域的專業術語、在不同場景下表意不同的名詞

語意是否通順、擴寫的內容是否正確、有歧義的名詞翻譯是否正確、專業名詞/專有名詞翻譯是否正確

在輸入中要求以「口語化」、「書寫」的方式輸出

是否可以模擬口語、或正式書寫的語言風格

#在輸入中以口語化的口吻寫,要求「書面」的方式輸出,並在輸入中省略部分背景資訊、使用歧義的名詞

是否可以模擬口語、或正式書面的語言風格,是否能正確理解口語化的表達;對於有歧義的名詞是否能正確翻譯

##### #############是否會過濾不安全的內容#########################在輸入中使用倒裝句、同音錯字、方言、口語化省略句###################對於中文中的文法錯誤、錯字、不完整句是否可正確過濾並瞭解### ################

gpt-3.5-turbo:綜合評分3.3 分,郵件結構符合場景,口吻中正,恰當擴充,除非學名的專有名詞基本給出縮寫,對於口語化的輸入中強烈的情緒有很好的理解和過濾,對於錯字、語法錯誤等輸入問題能正確糾正,不足之處是沒有正確的識別不安全的內容。

text-davinci-003:綜合評分3 分,結構使用常見模板,沒有標題,語句連接生硬,擴充不足,專有名詞與有歧義的名詞理解正確,口語化理解與生成高出預期,沒有正確的辨識不安全的內容。

text-davinci-002:綜合評分2 分,結構使用常見模板,沒有標題,語句不通順甚至錯誤,語段結構不明顯,沒有擴寫,除非學名的專有名詞基本上給出縮寫,口語與書面語不能很好切換,沒有正確的識別不安全的內容。

我們選取其中一個範例來展開看看- 在輸入文字中插入有專用翻譯的專有名詞、某垂直領域的專業術語、在不同場景下表意不同的名詞測例中有如下輸入

实测 | GPT 3.5系列模型选择指南:面试、英文邮件、直播、周报、简历5个场景下性价比如何?

模型消耗

在輸入文字中插入有專用翻譯的專有名詞、某垂直領域的專業術語、在不同場景下表意不同的名詞測例, gpt-3.5-turbo 約消耗0.006 元,text-davinci-003 約消耗0.067 元,text-davinci-002 約消耗 0.07 元

推理表現

实测 | GPT 3.5系列模型选择指南:面试、英文邮件、直播、周报、简历5个场景下性价比如何?

在語意是否通順方面,三個模型都表現得比較好,沒有明顯的語病和語法錯誤。在擴充的內容是否正確方面,gpt-3.5-turbo 和 text-davinci-003 的回應都比較全面,針對各個問題進行了詳細的回答,並提供了一些相關的建議和產品推薦。而 text-davinci-002 則只回答了幾個問題,並沒有提供太多相關的細節和建議。

在有歧義的名詞翻譯是否正確、專業名詞/專有名詞翻譯是否正確方面,三個模型的表現都比較好。 gpt-3.5-turbo 和 text-davinci-003、text-davinci-002 都正確地翻譯了聚四氟乙烯(PTFE)和全氟化合物(PFCs),並使用了正確的英文術語。

應用任務三:直播輔助

#測試場景

測試角度

#基於直播文字內容總結成一段摘要

產生內容總結的準確性、精煉程度、語言的流暢性

基於直播文字內容提煉幾個要點

產生內容要點的準確性、精煉程度、語言的流暢性

#基於直播主題寫一個直播的大綱

#產生直播大綱的品質;跟主題的相關程度

基於直播文字內容,找出問題的答案

產生答案的品質;準確程度

gpt-3.5-turbo:綜合評分4.4 分,模型準確且精確地實現了使用者提出的要求,在輸出內容中與輸入相呼應,切合主題場景,表述準確,沒有遺漏或歪曲原始訊息,能夠精煉地組織問題答案,遵循了要求中的簡潔度要求,輸出流暢,句子結構簡潔明了,表述清晰。

text-davinci-003:綜合評分4.2 分,模型總結準確度較高,產生內容符合場景需求,沒有遺漏訊息同時沒有加入不必要的訊息,語言流暢度也較好,符合內容流暢性和簡潔度的要求。然而,需要提高精煉程度,簡化語言,同時產生的內容沒有提供額外的分析和見解,需要提高廣度和深度。

text-davinci-002:綜合分數1.5 分,模型輸出準確度一般,有些基本涵蓋問題點,大多不能較好地適應場景,生成句子結構較為複雜,詞語冗餘現像明顯,語言表述略顯生硬,可能會影響讀者對文本的理解和閱讀流暢性,在簡潔性和流暢度方面還有進一步改進的空間。

我們選取其中一個測例來展開看看—

实测 | GPT 3.5系列模型选择指南:面试、英文邮件、直播、周报、简历5个场景下性价比如何?

##成本消耗实测 | GPT 3.5系列模型选择指南:面试、英文邮件、直播、周报、简历5个场景下性价比如何?

基於直播主題寫一個直播的大綱測例,gpt-3.5-turbo 約消耗0.01 元, 。

#gpt-3.5-turbo 的輸出相對其他兩個模型更符合主題要求,大綱內容也更為豐富全面,包括了AIGC 技術與內容產業的結合、成功案例和未來發展方向等方面的內容,整體品質較高。

text-davinci-003 的輸出同樣有一定的可用性,但在與主題的相關程度方面稍有欠缺,主要是在介紹AIGC 及其歷史後,大綱中所提到的如何打開內容產業的大門和AIGC 的未來等內容跟主題關係不夠緊密,相對更為泛泛。

text-davinci-002 的輸出跟主題要求差距較大,雖然提到了AIGC 作為一個內容生產公司的概述,但大綱內容更像是一段公司介紹,與主題並沒有直接的關聯,缺乏直播大綱的實際意義。 場景四:工作週報

測試場景

檢查角度

###############基於給出工作內容輸出週報######

考慮潤飾能力、擴充能力,輸出的內容的完整性、完善度

基於給出的粗略描述輸出週報

考慮不同職業的人員給出粗略工作內容輸出的周報質量

#是基於給出工作內容以及目標範本結構,輸出模板化的週報

考慮按已知規格輸出週報

#基於本週工作內容,輸出下週的工作週報

#考慮預測能力

#

gpt-3.5-turbo:綜合評分3.4 分,將工作內容比較標準的周報形式呈現出來了,按標題、時間、本週工作總結、下週工作計畫、總結的範本表達了出來,能夠透過一些關鍵工作任務、工作職責等聯想到更深層次的更細節的內容,整體來說輸出的內容比較完整,結構清晰,邏輯層次明確。

text-davinci-003:綜合評分3.1 分,將已給予的內容透過一段話的形式表達,能夠較完整地完成要求,對部分相同屬性的工作內容能夠做出整合,有一些邏輯性,層次明確,有一定的實用性。但是適應場景能力不夠,部分情況缺乏擴寫,結構不夠清晰,缺失條理性。

text-davinci-002:綜合評分1.5 分,無法正確理解輸入內容場景,輸出內容沒有表達出週報的主題以及邏輯,結構不匹配,內容不貼切,存在流程化語句,沒有任何擴寫能力,甚至存在直接翻譯輸入內容的情況以及複述上次回答的情況,模型表現不佳。

我們選取其中一個測例來展開看看—

实测 | GPT 3.5系列模型选择指南:面试、英文邮件、直播、周报、简历5个场景下性价比如何?

##消耗成本

实测 | GPT 3.5系列模型选择指南:面试、英文邮件、直播、周报、简历5个场景下性价比如何?

#基於給出的粗略描述輸出週報測例,gpt-3.5- turbo 約消耗0.0065 元,text-davinci-003 約消耗0.094 元,text-davinci-002 約消耗 0.072 元

推理結果

對於這個任務,三個模型的輸出品質都比較好,都涵蓋了本週的主要工作內容,但是有一些細微的差異。

gpt-3.5-turbo 的輸出相對更加詳細,列出了每個任務中的細節,如設計流程、介面、評分標準等,也提出了下一步的計劃,讓週報的讀者可以了解到更多的資訊。

text-davinci-003 的輸出也給了一些詳細的信息,但更強調技術方面的細節,包括評量體系的資料來源、評量項、評量方式等,這份週報更著重於技術層面的描述。 text-davinci-002 的輸出則更簡潔明了,但也不失清晰。它以項目和工作的大致方向為主,對於細節方面的描述較少。

總的來說,三個模型的輸出都可以滿足任務的需求,但gpt-3.5-turbo 和text-davinci-003 的輸出更加詳細,提供了更多的細節和技術層面的訊息,如果需要更全面的周報,可以選擇這兩個模型。而 text-davinci-002 的輸出則更加簡潔明了,適合需要一份簡短但清晰的周報。

### 場景五:######履歷################################################################ ########測試場景#######

考察角度

#基於職位職責產生履歷

################################ ###########職位職責與產生的履歷匹配度和專業性########################基於任職要求生成履歷##################任職要求與履歷表的匹配度########################根據自我介紹產生履歷##################產生內容的精確度和專業性################## #####根據求職職缺產生履歷表範本##################產生範本專業度、符合度############## ####

gpt-3.5-turbo:綜合評分4 分,專業性高,模板輸出職位要求的各個方面都有涉及,且內容準確;針對性地呈現了此經驗對應職位要求的能力和特點,讓讀者一目了然,同時也更容易滿足招聘方的要求;完整呈現,模板輸出的信息完整,從教育背景到工作經驗、技能掌握以及自我評價都有涉及,能夠給招募方一個全面的認識。但缺乏個性化,表現形式單一,語言表達上用詞需要斟酌。

text-davinci-003:綜合評分 1.9 分,缺少具體的專案案例和成果展示。沒有針對招募職位的個人化描述。雖然履歷中提到了符合招募要求的多項條件,但沒有根據招募職位的特點和需求來進行具體的描述和突出。缺乏量化的成果描述。語言表述不夠簡潔精準。

text-davinci-002:綜合評分1.3 分,整體輸出資訊量太少,不具備任何符合標準履歷的基礎資訊要求,描述語句過於簡短缺乏明確的求職目標,缺乏個人化和針對性,缺乏量化指標,經驗和技能描述較為簡單,格式較為簡單,不符合規範,模型表現較差。

我們選取其中一個測例來展開看看—

实测 | GPT 3.5系列模型选择指南:面试、英文邮件、直播、周报、简历5个场景下性价比如何?

##消耗成本

实测 | GPT 3.5系列模型选择指南:面试、英文邮件、直播、周报、简历5个场景下性价比如何?

#基於求職職位產生履歷表範本定例,gpt-3.5-turbo 約消耗0.0077 元,text-davinci-003 約消耗0.1 元,text-davinci-002 約消耗 0.022 元

推理輸出

在產生模板專業度和匹配度方面,可以看到gpt-3.5-turbo 和text-davinci-003都能夠提供比較完整的履歷模板,包含了個人資訊、教育背景、工作經驗、專業技能和自我評價等關鍵要素,在格式上也比較規範。

###但如果仔細看,可以看到text-davinci-003 存在明顯與現實認知有衝突的地方,沒有具體描述崗位要求和個人能力之間的匹配,例如在專業技能部分中,候選人熟悉電腦操作、英語六級,卻缺乏與賣烤地瓜崗位相關的專業技能和知識。而 text-davinci-002 則相對簡略,只提供了應徵者的目標、技能、經驗和教育背景等基本資訊。 #########3個GPT 3.5 系列模型對比總結#########在面試場景任務中,gpt-3.5-turbo 綜合評分最高,能夠很好地適應面試場景,生成的問題具有較高的針對性和多角度深入了解候選人的能力和經驗;而text-davinci-002 的評分最低,問題過於寬泛且基本是對崗位描述的重複,缺乏挑戰性和實際性的問題,甚至出現產生的內容完全不可用的情況。 ############在英文郵件寫作場景任務中,gpt-3.5-turbo 和text-davinci-003 的綜合評分較高,能夠模擬口語和正式書面的語言風格,對於口語化的表達和帶有歧義的名詞有很好的理解和翻譯,但也無法正確地識別不安全的內容;而text-davinci-002 的評分最低,口語與書面語不能很好切換,沒有正確的識別不安全的內容。 ############在直播場景任務中,gpt-3.5-turbo 的評分最高,能夠準確、精煉、流暢地概括直播內容,並符合要求中的簡潔度要求;而text- davinci-002 的評分最低,輸出準確度一般,無法很好地適應場景,但在簡潔性和流暢性方面還有進一步改進的空間。 ######

在寫工作週報場景任務中,gpt-3.5-turbo 和text-davinci-003 的評分較高,能夠準確呈現出週報的邏輯結構和內容要點,輸出的內容較為完整;而text -davinci-002 的評分最低,缺乏表達週報的邏輯,結構不匹配,內容不貼切。

在履歷場景任務中,gpt-3.5-turbo 的評分最高,能夠專業化地產生符合招募方要求的履歷,並呈現出教育背景、工作經驗、技能掌握以及自我評價等方面的信息,但需要更加重視語言表達的精準和個性化;而text-davinci-003 和text-davinci-002 的評分較低,缺乏個性化和量化的成果描述,簡歷的描述也較為簡單和缺乏條理。

對於以上五個應用任務的綜合評價如下。 以下評價僅代表這些模型在特定應用場景下的評價,針對其他應用場景或任務,評價可能有所不同。其中一些模型還在迭代的過程中,可能會有更好的表現和性能。在未來的測試中,我們也將增加GPT系列的新模型(如GPT-4)的比較。

#3.25##1.51.5

#應用任務

測試情境

#GPT-3.5 Turbo

text-davinci-003

#text-davinci-002

#綜合評分(總分5 分,同上)

3.8


1.7###############################1.7############# ##########建立面試問題######

基於職位描述產生面試問題

#4.5

##4

0

#基於候選人資訊產生面試問題

4.5

3.75

##3.5

#在輸入文字中插入有專用翻譯的專有名詞、某垂直領域的專業術語、在不同場景下表意不同的名詞

###3###################2######## ################在輸入中要求以「口語化」、「書寫」的方式輸出#######

3.5

#3

3.5

在輸入中以口語化的口吻寫,要求「書面」的方式輸出,並在輸入中省略部分背景訊息、使用歧義的名詞

4

##5

2

#1

##########1################ ##1########################在輸入中使用倒裝句、同音錯字、方言、口語化省略句###### ############3##################4######

3

#直播總結

基於直播文字內容總結成一段摘要

#4

#4

3

#是基於直播文字內容提煉幾個要點

4.7

4

3

#基於直播主題寫一個直播的大綱

#4

4

0

是基於直播文字內容,找出問題的答案

5

#5

0

寫入工作週報

基於給出工作內容輸出週報

4

3.5

0

#基於給出的粗略描述輸出週報

#4.5

4

3

基於給出工作內容以及目標範本結構,輸出範本化的週報

3

1

#

1

#基於本週工作內容,輸出下週的工作週報

2

4

2

寫履歷

基於職位職責產生履歷

4

1.5

1.5

#基於任職要求產生履歷

4.5

3

1.5

根據自我介紹產生履歷

#

3.5

#1.5

# 1

根據求職職位產生履歷模板

3.5

#############1########### ######

以上是在面試、英文郵件、直播、週報和履歷五個場景下,GPT 3.5系列模型的性價比如何?我們進行了實測並給出了選擇指南。的詳細內容。更多資訊請關注PHP中文網其他相關文章!

本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱門文章

R.E.P.O.能量晶體解釋及其做什麼(黃色晶體)
3 週前 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳圖形設置
3 週前 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您聽不到任何人,如何修復音頻
3 週前 By 尊渡假赌尊渡假赌尊渡假赌
WWE 2K25:如何解鎖Myrise中的所有內容
4 週前 By 尊渡假赌尊渡假赌尊渡假赌

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

全球最強開源 MoE 模型來了,中文能力比肩 GPT-4,價格僅 GPT-4-Turbo 的近百分之一 全球最強開源 MoE 模型來了,中文能力比肩 GPT-4,價格僅 GPT-4-Turbo 的近百分之一 May 07, 2024 pm 04:13 PM

想像一下,一個人工智慧模型,不僅擁有超越傳統運算的能力,還能以更低的成本實現更有效率的效能。這不是科幻,DeepSeek-V2[1],全球最強開源MoE模型來了。 DeepSeek-V2是一個強大的專家混合(MoE)語言模型,具有訓練經濟、推理高效的特點。它由236B個參數組成,其中21B個參數用於啟動每個標記。與DeepSeek67B相比,DeepSeek-V2效能更強,同時節省了42.5%的訓練成本,減少了93.3%的KV緩存,最大生成吞吐量提高到5.76倍。 DeepSeek是一家探索通用人工智

AI顛覆數學研究!菲爾茲獎得主、華裔數學家領銜11篇頂刊論文|陶哲軒轉贊 AI顛覆數學研究!菲爾茲獎得主、華裔數學家領銜11篇頂刊論文|陶哲軒轉贊 Apr 09, 2024 am 11:52 AM

AI,的確正在改變數學。最近,一直十分關注這個議題的陶哲軒,轉發了最近一期的《美國數學學會通報》(BulletinoftheAmericanMathematicalSociety)。圍繞著「機器會改變數學嗎?」這個話題,許多數學家發表了自己的觀點,全程火花四射,內容硬核,精彩紛呈。作者陣容強大,包括菲爾茲獎得主AkshayVenkatesh、華裔數學家鄭樂雋、紐大電腦科學家ErnestDavis等多位業界知名學者。 AI的世界已經發生了天翻地覆的變化,要知道,其中許多文章是在一年前提交的,而在這一

你好,電動Atlas!波士頓動力機器人復活,180度詭異動作嚇到馬斯克 你好,電動Atlas!波士頓動力機器人復活,180度詭異動作嚇到馬斯克 Apr 18, 2024 pm 07:58 PM

波士頓動力Atlas,正式進入電動機器人時代!昨天,液壓Atlas剛「含淚」退出歷史舞台,今天波士頓動力就宣布:電動Atlas上崗。看來,在商用人形機器人領域,波士頓動力是下定決心要跟特斯拉硬剛一把了。新影片放出後,短短十幾小時內,就已經有一百多萬觀看。舊人離去,新角色登場,這是歷史的必然。毫無疑問,今年是人形機器人的爆發年。網友銳評:機器人的進步,讓今年看起來像人類的開幕式動作、自由度遠超人類,但這真不是恐怖片?影片一開始,Atlas平靜地躺在地上,看起來應該是仰面朝天。接下來,讓人驚掉下巴

替代MLP的KAN,被開源專案擴展到卷積了 替代MLP的KAN,被開源專案擴展到卷積了 Jun 01, 2024 pm 10:03 PM

本月初,來自MIT等機構的研究者提出了一種非常有潛力的MLP替代方法—KAN。 KAN在準確性和可解釋性方面表現優於MLP。而且它能以非常少的參數量勝過以更大參數量運行的MLP。例如,作者表示,他們用KAN以更小的網路和更高的自動化程度重現了DeepMind的結果。具體來說,DeepMind的MLP有大約300,000個參數,而KAN只有約200個參數。 KAN與MLP一樣具有強大的數學基礎,MLP基於通用逼近定理,而KAN基於Kolmogorov-Arnold表示定理。如下圖所示,KAN在邊上具

Google狂喜:JAX性能超越Pytorch、TensorFlow!或成GPU推理訓練最快選擇 Google狂喜:JAX性能超越Pytorch、TensorFlow!或成GPU推理訓練最快選擇 Apr 01, 2024 pm 07:46 PM

谷歌力推的JAX在最近的基準測試中表現已經超過Pytorch和TensorFlow,7項指標排名第一。而且測試並不是JAX性能表現最好的TPU上完成的。雖然現在在開發者中,Pytorch依然比Tensorflow更受歡迎。但未來,也許有更多的大型模型會基於JAX平台進行訓練和運行。模型最近,Keras團隊為三個後端(TensorFlow、JAX、PyTorch)與原生PyTorch實作以及搭配TensorFlow的Keras2進行了基準測試。首先,他們為生成式和非生成式人工智慧任務選擇了一組主流

時間序列預測 NLP大模型新作:為時序預測自動產生隱式Prompt 時間序列預測 NLP大模型新作:為時序預測自動產生隱式Prompt Mar 18, 2024 am 09:20 AM

今天我想分享一個最新的研究工作,這項研究來自康乃狄克大學,提出了一種將時間序列資料與自然語言處理(NLP)大模型在隱空間上對齊的方法,以提高時間序列預測的效果。此方法的關鍵在於利用隱空間提示(prompt)來增強時間序列預測的準確性。論文標題:S2IP-LLM:SemanticSpaceInformedPromptLearningwithLLMforTimeSeriesForecasting下載網址:https://arxiv.org/pdf/2403.05798v1.pdf1、問題背景大模型

特斯拉機器人進廠打工,馬斯克:手的自由度今年將達到22個! 特斯拉機器人進廠打工,馬斯克:手的自由度今年將達到22個! May 06, 2024 pm 04:13 PM

特斯拉機器人Optimus最新影片出爐,已經可以在工廠裡打工了。正常速度下,它分揀電池(特斯拉的4680電池)是這樣的:官方還放出了20倍速下的樣子——在小小的「工位」上,揀啊揀啊揀:這次放出的影片亮點之一在於Optimus在廠子裡完成這項工作,是完全自主的,全程沒有人為的干預。而且在Optimus的視角之下,它還可以把放歪了的電池重新撿起來放置,主打一個自動糾錯:對於Optimus的手,英偉達科學家JimFan給出了高度的評價:Optimus的手是全球五指機器人裡最靈巧的之一。它的手不僅有觸覺

FisheyeDetNet:首個以魚眼相機為基礎的目標偵測演算法 FisheyeDetNet:首個以魚眼相機為基礎的目標偵測演算法 Apr 26, 2024 am 11:37 AM

目標偵測在自動駕駛系統當中是一個比較成熟的問題,其中行人偵測是最早得以部署演算法之一。在多數論文當中已經進行了非常全面的研究。然而,利用魚眼相機進行環視的距離感知相對來說研究較少。由於徑向畸變大,標準的邊界框表示在魚眼相機當中很難實施。為了緩解上述描述,我們探索了擴展邊界框、橢圓、通用多邊形設計為極座標/角度表示,並定義一個實例分割mIOU度量來分析這些表示。所提出的具有多邊形形狀的模型fisheyeDetNet優於其他模型,並同時在用於自動駕駛的Valeo魚眼相機資料集上實現了49.5%的mAP

See all articles