目錄
檢測利器:讓大型語言模型產生的文本無處隱藏
首頁 科技週邊 人工智慧 剛剛,ChatGPT官宣數學能力再升級,網友:終於精通十以內加減法了

剛剛,ChatGPT官宣數學能力再升級,網友:終於精通十以內加減法了

Apr 12, 2023 pm 09:10 PM
ai chatgpt

自 ChatGPT 發布以來,它的能力不斷被人們解鎖,例如寫神經網路、做智慧音箱。人們在試用中慢慢發現,數學能力是 ChatGPT 的一大短板,連簡單的「雞兔同籠」題目都能算錯。

大概是考慮到了這一點,ChatGPT 剛剛宣布了一次重要更新:提升了「真實性」和「數學能力」。

剛剛,ChatGPT官宣數學能力再升級,網友:終於精通十以內加減法了

這次是ChatGPT 自去年11 月推出以來的第三次更新,但由於「更新說明」過於模糊,人們還需要經歷一個新能力的探索過程。

幾日前,電腦科學家、Wolfram 語言之父Stephen Wolfram 將理工科神器Wolfram|Alpha 與ChatGPT 結合起來,為後者註入超強運算知識實現互補,效果相當不錯。

那麼,這次更新之後的 ChatGPT 數學能力可與其一戰嗎?

看起來… 對比的結果不如人意:

剛剛,ChatGPT官宣數學能力再升級,網友:終於精通十以內加減法了

「只能說神經網路不是用來幹這個的」,Sebastian Raschka 都覺得無奈了。

也有人發現,升級後的ChatGPT「脾氣逐漸暴躁」:

剛剛,ChatGPT官宣數學能力再升級,網友:終於精通十以內加減法了

##「你數學是哪位老師教的?」面對一道十以內加減法的題目,它的語氣像極了輔導孩子作業的家長。

這也許是「偶然現象」?看來數學是真難。

不管怎麼說,我們可以期待一波後續的有趣 Demo 了。

太捲了:ChatGPT 和它的競爭者們

「未來6 到12 個月將帶來實驗的爆炸性成長,一旦公司能夠使用OpenAI的API 在ChatGPT 之上建構。出現的殺手級用例可能是圍繞生成式AI 對知識管理的影響。」

剛剛,ChatGPT官宣數學能力再升級,網友:終於精通十以內加減法了

################### Nicola Morini Bianzino。 ###############在最近的一次公開活動上,安永全球技術長 Nicola Morini Bianzino 表示,目前還沒出現在企業中使用 ChatGPT 的「殺手級」用例。但這種狀態可能很快就會改變,他預測未來 6 到 12 個月將帶來大量實驗,尤其是當公司能夠使用 OpenAI 的 API 在 ChatGPT 上建置之後。 ############Bianzino 將生成式 AI 對知識管理的影響描述為「AI 的辯證法」。 「知識公司傾向於以一種非常扁平的二維方式儲存知識,這使得存取、互動和對話變得困難。我們在20、30、40 年前嘗試建立專家系統。這並不是很順利,因為它們太死板了。我認為這項技術有望克服專家系統存在的許多問題。」Nicola Morini Bianzino 表示。 ############與此同時,ChatGPT 的競爭者們也不斷湧現,這條賽道變得越來越「卷」。從 Anthropic 公司的 Claude、DeepMind 公司的 Sparrow、Google公司的 LaMDA 到 Character AI,每天都似乎有新競爭者步入賽場。 ######

Anthropic 是一家舊金山的新創公司,由幾位離開 OpenAI 的研究人員於 2021 年創立。該公司成立不到一年後就宣布了高​​達 5.8 億美元的融資,上週五還被通報即將增加 3 億美元融資。

這家公司開發了一個名為「Claude」的AI 聊天機器人,目前透過Slack 整合在封閉測試版中可用,據報道它與ChatGPT 相似,甚至有一些改進。 Anthropic 將自身的使命描述為「致力於建立可靠、可解釋和可操縱的 AI 系統」。

DeepMind 同樣也是這條賽道上不可忽視的力量。這家公司在 9 月的一篇論文中介紹了 “Sparrow”,被譽為「朝著創建更安全、偏差更小的機器學習系統邁出的重要一步」。 Sparrow 是「一種有用的對話智能體,可以降低不安全和不適當答案的風險」,旨在「與使用者交談、回答問題並在有助於尋找證據」。 

不過,DeepMind 的安全研究員、 Sparrow 論文的主要作者 Geoffrey Irving 表示,DeepMind 認為 Sparrow 是一個基於研究的概念驗證模型,尚未準備好部署。

在兩週前的《時代雜誌》文章中,該公司的執行長兼聯合創始人Demis Hassabis 表示,DeepMind 正在考慮在2023 年的某個時候發布其聊天機器人Sparrow 的“私人測試版”。如此一來,公司就可以發展基於強化學習的功能,例如引用來源 —— 這是 ChatGPT 所沒有的能力。

再說到Google#的LaMDA,這個模型曾在去年夏天引發過熱議— 谷歌工程師Blake Lemoine 因聲稱LaMDA 具有感知能力而被解僱。

即使不像 Lemoine 所認為的那樣,LaMDA 仍被認為是 ChatGPT 最大的競爭對手之一。谷歌在 2021 年發布的部落格文章中表示,LaMDA 的對話技巧「已經醞釀多年」。與 ChatGPT 一樣,LaMDA 建立在 Transformer 架構之上,也接受過對話的訓練。

根據Google的說法,「在訓練期間,LaMDA 發現了一些將開放式對話與其他形式的語言區分開來的細微差別。」

《紐約時報》在1 月20 日的一篇報導中提到,谷歌創始人Larry Page 和Sergey Brin 上個月會見了公司高管,討論了ChatGPT 可能對谷歌1490 億美元的搜索業務構成的威脅。谷歌發言人在聲明中表示:「我們繼續在內部測試我們的AI 技術,以確保它有用且安全,我們期待盡快與外部分享更多經驗。」

####### #另外一位頗具實力的玩家則是######### Character AI#########,這家公司由Transformer 論文作者之一 ########## #Noam Shazeer 創辦##########,逐漸為人所知。 ############該公司推出的 AI 聊天機器人技術允許用戶與任何人聊天或進行角色扮演,例如模仿伊麗莎白女王和莎士比亞等歷史人物。目前該技術是免費使用的,Character 正在「研究用戶如何與之互動,然後再製定具體的創收計劃。」########傳百度將發布類似ChatGPT 的聊天機器人##################################################################################################################### ####更能引起國內AI 從業者關注的是,據路透社、彭博社等多家外媒報道稱,百度公司計劃在3 月份推出類似於OpenAI 的ChatGPT 的人工智能聊天機器人服務。 ############消息人士稱,百度計畫在用戶提出搜尋請求時整合聊天機器人產生的結果,而不僅僅是連結。 「該工具尚未命名,將嵌入在主搜尋服務中,用戶將傳回對話風格的搜尋結果。」######

在去年12 月在一次內部討論中,百度CEO 李彥宏曾分享自己對ChatGPT 的看法:「把這麼酷的技術變成人人需要的產品」才是最難的,希望百度新的一年「至少能有一個高成長、有創新的業務,真正的above and beyond our expectation」。

而根據《科創板日報》1 月 30 日報道,百度內部確有推出類似 ChatGPT 聊天機器人的規劃,但具體時間並不精確。百度 CEO 李彥宏對於此專案的定位是「引領搜尋體驗的世代變革」。他在內部指出,相關技術已達到臨界點,百度在其中有較大的機會。

檢測利器:讓大型語言模型產生的文本無處隱藏

ChatGPT 的能力縱然強大,但同時它在學校作業、論文發表等領域的濫用已經引發了人們廣泛的擔憂。因此,學界開始探索檢測 ChatGPT 等大型語言模型(LLM)生成文本的方法和工具。

馬裡蘭大學幾位研究者對 ChatGPT 等語言模型輸出的水印進行了研究。在論文《A Watermark for Large Language Models》,他們提出了一個高效能水印框架,水印的嵌入對文本品質的影響忽略不計,可以使用高效的開源演算法進行檢測,而無需訪問語言模型的 API 或參數。

本文方法可以偵測到比較短的合成文字(少至 25 個 tokens),同時使得人類文本在統計上不可能被標記為機器生成。

剛剛,ChatGPT官宣數學能力再升級,網友:終於精通十以內加減法了

#論文網址:https://arxiv.org/pdf/2301.10226v1.pdf

#史丹佛大學幾位研究者在論文《DetectGPT: Zero-Shot Machine-Generated Text Detection using Probability Curvature》中,證明了從LLM 取樣的文字傾向於佔據模型對數機率函數的負曲率區域。利用這個觀察結果,他們定義了一個基於曲率的新標準,來判斷一段文章是否由給定的 LLM 產生。

研究者將他們的方法稱為 DetectGPT,它不需要訓練單獨的分類器、收集真實或生成段落的資料集以及明確地為生成文本加浮水印。 DetectGPT 僅使用感興趣模型計算的對數機率和另一通用預訓練語言模型(如 T5)產生段落的隨機擾動。

結果發現,DetectGPT 比目前模型樣本檢測的零樣本方法更具辨別力,尤其是將20B 參數GPT-NeoX 產生的假新聞報告偵測從最強零樣本基線的0.81 AUROC 提升到了0.95 AUROC。未來將公佈代碼和數據。

剛剛,ChatGPT官宣數學能力再升級,網友:終於精通十以內加減法了

DetectGPT 偵測 GPT-3 產生文字的示意圖。

論文網址:https://arxiv.org/abs/2301.11305

除了以論文形式展現的檢測方案,也有個人推出了強大的檢測工具。 例如一位來自Hive AI、致力於ChatGPT 檢測器研究的ML 工程師,其方案能夠識別ChatGPT、GPT-3 和其他流行AI 引擎生成的文本#。

從內部基準測試結果來看,此方案效果明顯優於GPTZero 和OpenAI GPT2 Output Detector 等類似方法#。在內部資料集上,模型平衡準確率 > 99%,而 GPTZero 的準確率約為 60%,OpenAI GPT2 Output Detector 的準確率為 84%。

剛剛,ChatGPT官宣數學能力再升級,網友:終於精通十以內加減法了

Demo 網址:https://hivemoderation.com/ai-generated-content-detection

最後,GPTZero 也迎來了更新-GPTZe#roX,一個專為教育者打造的全新AI 偵測模型。該模型可以混合處理 AI 生成和人類文本,並突出顯示最有可能由 AI 生成的文本部分。另外建置了一個 pipeline 來處理 PDF、Word 和.txt 格式的檔案批次上傳,從而輕鬆執行多個檔案。

剛剛,ChatGPT官宣數學能力再升級,網友:終於精通十以內加減法了

#Demo 位址:https://gptzero.substack.com/p/gptzerox

#總之,隨著AI 產生文字偵測工具的日益豐富和日加完善,ChatGPT 等大型語言模型在應用時勢必會越來越正規,幫助人們更有效率地釋放AI 的能力。

以上是剛剛,ChatGPT官宣數學能力再升級,網友:終於精通十以內加減法了的詳細內容。更多資訊請關注PHP中文網其他相關文章!

本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

<🎜>:泡泡膠模擬器無窮大 - 如何獲取和使用皇家鑰匙
3 週前 By 尊渡假赌尊渡假赌尊渡假赌
北端:融合系統,解釋
3 週前 By 尊渡假赌尊渡假赌尊渡假赌
Mandragora:巫婆樹的耳語 - 如何解鎖抓鉤
3 週前 By 尊渡假赌尊渡假赌尊渡假赌

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

熱門話題

Java教學
1664
14
CakePHP 教程
1423
52
Laravel 教程
1321
25
PHP教程
1269
29
C# 教程
1249
24
C  中的chrono庫如何使用? C 中的chrono庫如何使用? Apr 28, 2025 pm 10:18 PM

使用C 中的chrono庫可以讓你更加精確地控制時間和時間間隔,讓我們來探討一下這個庫的魅力所在吧。 C 的chrono庫是標準庫的一部分,它提供了一種現代化的方式來處理時間和時間間隔。對於那些曾經飽受time.h和ctime折磨的程序員來說,chrono無疑是一個福音。它不僅提高了代碼的可讀性和可維護性,還提供了更高的精度和靈活性。讓我們從基礎開始,chrono庫主要包括以下幾個關鍵組件:std::chrono::system_clock:表示系統時鐘,用於獲取當前時間。 std::chron

如何理解C  中的DMA操作? 如何理解C 中的DMA操作? Apr 28, 2025 pm 10:09 PM

DMA在C 中是指DirectMemoryAccess,直接內存訪問技術,允許硬件設備直接與內存進行數據傳輸,不需要CPU干預。 1)DMA操作高度依賴於硬件設備和驅動程序,實現方式因係統而異。 2)直接訪問內存可能帶來安全風險,需確保代碼的正確性和安全性。 3)DMA可提高性能,但使用不當可能導致系統性能下降。通過實踐和學習,可以掌握DMA的使用技巧,在高速數據傳輸和實時信號處理等場景中發揮其最大效能。

怎樣在C  中處理高DPI顯示? 怎樣在C 中處理高DPI顯示? Apr 28, 2025 pm 09:57 PM

在C 中處理高DPI顯示可以通過以下步驟實現:1)理解DPI和縮放,使用操作系統API獲取DPI信息並調整圖形輸出;2)處理跨平台兼容性,使用如SDL或Qt的跨平台圖形庫;3)進行性能優化,通過緩存、硬件加速和動態調整細節級別來提升性能;4)解決常見問題,如模糊文本和界面元素過小,通過正確應用DPI縮放來解決。

C  中的實時操作系統編程是什麼? C 中的實時操作系統編程是什麼? Apr 28, 2025 pm 10:15 PM

C 在實時操作系統(RTOS)編程中表現出色,提供了高效的執行效率和精確的時間管理。 1)C 通過直接操作硬件資源和高效的內存管理滿足RTOS的需求。 2)利用面向對象特性,C 可以設計靈活的任務調度系統。 3)C 支持高效的中斷處理,但需避免動態內存分配和異常處理以保證實時性。 4)模板編程和內聯函數有助於性能優化。 5)實際應用中,C 可用於實現高效的日誌系統。

怎樣在C  中測量線程性能? 怎樣在C 中測量線程性能? Apr 28, 2025 pm 10:21 PM

在C 中測量線程性能可以使用標準庫中的計時工具、性能分析工具和自定義計時器。 1.使用庫測量執行時間。 2.使用gprof進行性能分析,步驟包括編譯時添加-pg選項、運行程序生成gmon.out文件、生成性能報告。 3.使用Valgrind的Callgrind模塊進行更詳細的分析,步驟包括運行程序生成callgrind.out文件、使用kcachegrind查看結果。 4.自定義計時器可靈活測量特定代碼段的執行時間。這些方法幫助全面了解線程性能,並優化代碼。

量化交易所排行榜2025 數字貨幣量化交易APP前十名推薦 量化交易所排行榜2025 數字貨幣量化交易APP前十名推薦 Apr 30, 2025 pm 07:24 PM

交易所內置量化工具包括:1. Binance(幣安):提供Binance Futures量化模塊,低手續費,支持AI輔助交易。 2. OKX(歐易):支持多賬戶管理和智能訂單路由,提供機構級風控。獨立量化策略平台有:3. 3Commas:拖拽式策略生成器,適用於多平台對沖套利。 4. Quadency:專業級算法策略庫,支持自定義風險閾值。 5. Pionex:內置16 預設策略,低交易手續費。垂直領域工具包括:6. Cryptohopper:雲端量化平台,支持150 技術指標。 7. Bitsgap:

給MySQL表添加和刪除字段的操作步驟 給MySQL表添加和刪除字段的操作步驟 Apr 29, 2025 pm 04:15 PM

在MySQL中,添加字段使用ALTERTABLEtable_nameADDCOLUMNnew_columnVARCHAR(255)AFTERexisting_column,刪除字段使用ALTERTABLEtable_nameDROPCOLUMNcolumn_to_drop。添加字段時,需指定位置以優化查詢性能和數據結構;刪除字段前需確認操作不可逆;使用在線DDL、備份數據、測試環境和低負載時間段修改表結構是性能優化和最佳實踐。

C  中的字符串流如何使用? C 中的字符串流如何使用? Apr 28, 2025 pm 09:12 PM

C 中使用字符串流的主要步驟和注意事項如下:1.創建輸出字符串流並轉換數據,如將整數轉換為字符串。 2.應用於復雜數據結構的序列化,如將vector轉換為字符串。 3.注意性能問題,避免在處理大量數據時頻繁使用字符串流,可考慮使用std::string的append方法。 4.注意內存管理,避免頻繁創建和銷毀字符串流對象,可以重用或使用std::stringstream。

See all articles