盤點20多個強大且免費的資料來源,任何人都能以此來建構AI
當我們談論現今商業和社會中的人工智慧時,實際上我們指的是機器學習。機器學習是一種應用,透過使用演算法(一組指令)變得越來越擅長執行某項特定任務,因為它接觸了越來越多與這項任務相關的資料。
這些任務可以是任何任務,從回答問題、創建文字或圖像(如ChatGPT或Dall-E等應用所能做的)到識別圖像(電腦視覺)或把自動駕駛汽車從A地導航到B地。
企業想要訓練自己的機器學習演算法以自動化完成日常任務,都需要資料來源來支援這些任務。
有哪些類型的資料?
企業資料通常分為兩類-內部資料和外部資料。
- 內部數據是企業組織自己從營運過程中收集的數據,這通常包括財務數據、客戶回饋數據、人力資源數據、營運數據、和其他更多來源的數據。某個組織在監控其自身營運過程中收集的數據被稱為專有數據,這種數據很有價值,因為它提供了有關特定業務的資訊。
- 外部資料是來自組織外部來源的數據,通常是從如下所列的第三方資料來源收集而來。如果資料可供任何人免費使用,則稱為開放資料。
除此之外,資料還可以分為結構化、非結構化或半結構化資料。
- 結構化資料是可以很好地、整齊地放入表格中的資訊-例如,顯示企業銷售的產品、時間、地點、價格的銷售資料就是內部結構化資料。或者,企業會選擇分析歷史市場數據和經濟指標來預測他們面向市場的未來趨勢(結構化的外部數據)。
- 非結構化資料則是其他一切,例如圖片、影片、文字和社群媒體內容,當然也可以包含有價值的洞察,但更難於分析。不過,AI已被證明對於從非結構化資料中提取意義特別有用。例如,影像辨識演算法可以透過分析店內閉路電視影像(內部非結構化資料)來告訴企業有關客戶行為的有用信息,還可以透過分析社群媒體上發布的與業務相關的影像(非結構化外部資料)來找到有價值的洞察。
所幸的是,資料無所不在。政府、研究機構、私人公司、非政府組織都免費提供資料用於研究甚至商業目的。因此,這裡羅列了一些2023年可用的免費線上資料最佳來源。
資料搜尋引擎和儲存庫
- Google Dataset Search——這實際上是Google編目的資料集的搜尋引擎;使用這個搜尋引擎可以找到你可能需要的幾乎所有內容的數據。
- AWS Open Data Search-另一個資料集搜尋引擎,由亞馬遜的AWS提供。
- Microsoft Research Open Data-由Microsoft收集的免費、開放的資料集,主要以科學為重點。
- UCI Machine Learning Repository-由加州大學歐文分校策劃和維護的600多個開放資料集的儲存庫,可用於訓練機器學習演算法。
- Kaggle Datasets——線上資料科學平台Kaggle還提供了精選的資料集目錄,涵蓋從大學排名到Google搜尋趨勢、零售銷售、線上電影評論和犯罪統計數據的所有內容。
- Reddit R/Datasets——由線上社群網站Reddit的使用者提交的龐大資料集,涵蓋了數百個主題。
政府和政府間組織的資料集
- Data.Gov—美國政府提供的開放資料門戶,託管了政府機構發布的一百萬個數據集中的近四分之一數據。
- Data.Census.Gov-如果你專門尋找美國的人口統計數據,這是一個很好的起點!
- Data.EU-歐盟的開放資料門戶,包含了來自歐盟組織的資料和成員國政府的資料。
- Data.gov.uk——英國政府機構發布的開放資料集。
- World Health Organization Data-與全球健康與福祉相關的資料集。
- World Bank Open Data-與經濟發展、國際金融市場、社會指標和環境問題相關的資料集。
圖像資料
- Google Open Images——數以百萬計的圖像以各種方式分類和標記,用於訓練許多不同類型的電腦視覺演算法。
- ImageNet Open Dataset-另一個由標記影像組成的資料集,可免費用於非商業機器學習應用。
- COCO Dataset-Common Objects in Context (COCO)資料集中包含了超過200000張影像,這些影像被選用於訓練物件偵測和字幕演算法。
聲音資料
- Mozilla Common Voice-一個開放的錄音資料集,可用於訓練任何涉及語音的AI應用。
- Audioset-另一個由Google策劃的資料集,這個資料集專注於聲音,包含數十萬個10秒樣本,這些樣本被分解為樂器、車輛和人聲等類別。
- Million Song Dataset——來自一百萬個當代流行音樂曲目的樣本和元數據。
文字資料
- Wikidata-多種不同格式的維基百科文章的資料庫下載。
- Common Crawl——一個從萬維網上抓取的開放資料儲存庫,最知名的用途就是對ChatGPT和其他聊天機器人的GPU大型語言模型進行訓練。
其他和雜項資料集
- Amazon Reviews-包含約3,500萬條亞馬遜產品評論的資料庫,包括產品資訊和評級。
- Waymo Open Dataset-Alphabet自動駕駛子公司Waymo公開了透過自動駕駛車輛收集的大量數據,包括來自攝影機和LiDAR感測器數據。
- Apolloscape Dataset-更多的自動駕駛數據,是由百度開源Apollo平台提供的。
以上是盤點20多個強大且免費的資料來源,任何人都能以此來建構AI的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

AI Hentai Generator
免費產生 AI 無盡。

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

熱門話題

在機器學習和資料科學領域,模型的可解釋性一直是研究者和實踐者關注的焦點。隨著深度學習和整合方法等複雜模型的廣泛應用,理解模型的決策過程變得尤為重要。可解釋人工智慧(ExplainableAI|XAI)透過提高模型的透明度,幫助建立對機器學習模型的信任和信心。提高模型的透明度可以透過多種複雜模型的廣泛應用等方法來實現,以及用於解釋模型的決策過程。這些方法包括特徵重要性分析、模型預測區間估計、局部可解釋性演算法等。特徵重要性分析可以透過評估模型對輸入特徵的影響程度來解釋模型的決策過程。模型預測區間估計

本文將介紹如何透過學習曲線來有效辨識機器學習模型中的過度擬合和欠擬合。欠擬合和過擬合1、過擬合如果一個模型對資料進行了過度訓練,以至於它從中學習了噪聲,那麼這個模型就被稱為過擬合。過度擬合模型非常完美地學習了每一個例子,所以它會錯誤地分類一個看不見的/新的例子。對於一個過度擬合的模型,我們會得到一個完美/接近完美的訓練集分數和一個糟糕的驗證集/測試分數。略有修改:"過擬合的原因:用一個複雜的模型來解決一個簡單的問題,從資料中提取雜訊。因為小資料集作為訓練集可能無法代表所有資料的正確表示。"2、欠擬合如

通俗來說,機器學習模型是一種數學函數,它能夠將輸入資料映射到預測輸出。更具體地說,機器學習模型是一種透過學習訓練數據,來調整模型參數,以最小化預測輸出與真實標籤之間的誤差的數學函數。在機器學習中存在多種模型,例如邏輯迴歸模型、決策樹模型、支援向量機模型等,每種模型都有其適用的資料類型和問題類型。同時,不同模型之間存在著許多共通性,或者說有一條隱藏的模型演化的路徑。將聯結主義的感知機為例,透過增加感知機的隱藏層數量,我們可以將其轉化為深度神經網路。而對感知機加入核函數的話就可以轉換為SVM。這一

1950年代,人工智慧(AI)誕生。當時研究人員發現機器可以執行類似人類的任務,例如思考。後來,在1960年代,美國國防部資助了人工智慧,並建立了實驗室進行進一步開發。研究人員發現人工智慧在許多領域都有用武之地,例如太空探索和極端環境中的生存。太空探索是對宇宙的研究,宇宙涵蓋了地球以外的整個宇宙空間。太空被歸類為極端環境,因為它的條件與地球不同。要在太空中生存,必須考慮許多因素,並採取預防措施。科學家和研究人員認為,探索太空並了解一切事物的現狀有助於理解宇宙的運作方式,並為潛在的環境危機

C++中機器學習演算法面臨的常見挑戰包括記憶體管理、多執行緒、效能最佳化和可維護性。解決方案包括使用智慧指標、現代線程庫、SIMD指令和第三方庫,並遵循程式碼風格指南和使用自動化工具。實作案例展示如何利用Eigen函式庫實現線性迴歸演算法,有效地管理記憶體和使用高效能矩陣操作。

機器學習是人工智慧的重要分支,它賦予電腦從數據中學習的能力,並能夠在無需明確編程的情況下改進自身能力。機器學習在各個領域都有廣泛的應用,從影像辨識和自然語言處理到推薦系統和詐欺偵測,它正在改變我們的生活方式。機器學習領域存在著多種不同的方法和理論,其中最具影響力的五種方法被稱為「機器學習五大派」。這五大派分別為符號派、聯結派、進化派、貝葉斯派和類推學派。 1.符號學派符號學(Symbolism),又稱符號主義,強調利用符號進行邏輯推理和表達知識。該學派認為學習是一種逆向演繹的過程,透過現有的

譯者|李睿審校|重樓人工智慧(AI)和機器學習(ML)模型如今變得越來越複雜,這些模型產生的產出是黑盒子-無法向利害關係人解釋。可解釋性人工智慧(XAI)致力於透過讓利害關係人理解這些模型的工作方式來解決這個問題,確保他們理解這些模型實際上是如何做出決策的,並確保人工智慧系統中的透明度、信任度和問責制來解決這個問題。本文探討了各種可解釋性人工智慧(XAI)技術,以闡明它們的基本原理。可解釋性人工智慧至關重要的幾個原因信任度和透明度:為了讓人工智慧系統被廣泛接受和信任,使用者需要了解決策是如何做出的

MetaFAIR聯合哈佛優化大規模機器學習時所產生的資料偏差,提供了新的研究架構。據所周知,大語言模型的訓練常常需要數月的時間,使用數百甚至上千個GPU。以LLaMA270B模型為例,其訓練總共需要1,720,320個GPU小時。由於這些工作負載的規模和複雜性,導致訓練大模型存在著獨特的系統性挑戰。最近,許多機構在訓練SOTA生成式AI模型時報告了訓練過程中的不穩定情況,它們通常以損失尖峰的形式出現,例如Google的PaLM模型訓練過程中出現了多達20次的損失尖峰。數值偏差是造成這種訓練不準確性的根因,
