透過理解機器學習演算法的功能,工程師可以為他們的應用產生有效的軟感測器。
軟體感測器(soft sensor),也稱為虛擬感測器,是一種可以綜合處理百個測量資料的軟體。想要添加軟感測器的工廠管理者可能會對使用軟感測器工作的機器學習的範圍感到茫然。然而,深入了解這個主題會發現,大多數軟式感測器設計背後都離不開幾種核心演算法。
這些模型的選擇、訓練和實施往往是資料科學家的工作,但工廠管理者和其他營運專家也會希望熟悉它們的功能。
軟感測器是在軟體環境中創建的,但可以提供與現實世界中的對應物相同的好處。在某些情況下,軟感測器可能比真實的感測器更受歡迎。
因此,經營專家和資料科學家應該合作設計感測器,原因有很多。其中一個原因是對於特定結果所需的關鍵參數進行即時或近實時測量的期望。這些測量對於提高整體性能至關重要。
軟感測器的其他用例包括:
在機器學習實踐中,經常會遵循一個循環模式。首先,資料被準備和清洗。接著,資料科學家將選擇一個演算法作為模型的基礎。然後,資料科學家將開始使用未經處理或預處理的時間序列和上下文資料訓練模型。最後,模型被測試和部署。然後,再次循環,以改進模型。
一般來說,有兩種主要類型的模型可供選擇:
在這些模型中,監督模型是開發軟感測器或建立預測標籤的更好選擇。儘管有數百種監督機器學習模型,但只有少數——來自被稱為回歸演算法的類別——對於創建軟感測器是有用的。以下是每種模型的描述:
這是建立軟感測器最有用且最簡單的方法之一。然而,某些過程,如測量聚合物的黏度,對於線性回歸來說太複雜了。這個演算法產生一個函數,預測目標變數的值。它是作為一組一個或多個變數的線性組合的函數。當使用一個變數時,它被稱為單變數線性迴歸。多個變數賦予它多元線性迴歸的名稱。使用這個模型的好處在於其清晰性。很容易確定哪些變數對目標的影響最大。這稱為特徵重要性。
理論上,決策樹可以擁有它們需要的任意多的規則和分支來適應資料。它們使用這些規則來自獨立變量,稱為一組特徵。結果是目標值的分段常數估計。因為它們可以有很多規則和分支,所以它們可以非常靈活。
另一方面,它們也存在過度擬合資料的風險。過擬合發生在模型訓練時間過長時。這使得模型開始適應資料集中的噪聲,並開始將其視為正常。欠擬合數據也可能發生。在這種情況下,演算法訓練不夠長,因此沒有足夠的數據來確定獨立變數可能如何與目標變數相關,或者它們可能對目標變數有什麼影響。
過度擬合和欠擬合資料都會導致模型失敗。模型再也不能處理新數據,也不能用於軟感測器。過度擬合和欠擬合資料的概念並不是決策樹模型獨有的。
這本質上是一個模型中多個決策樹模型的組合。它提供了更多的靈活性,允許更多的特徵,並給出了更強的預測能力。然而,它也帶來了過度擬合數據的高風險。
在機器學習中,梯度提升通常被稱為整合模型。像隨機森林一樣,梯度提升結合了多個決策樹。但它的不同之處在於,它優化每棵樹以最小化最後計算的損失函數。這些模型可以非常有效,但隨著時間的推移,它們變得更難解釋。
所謂的深度學習是一個神經網路迴歸模型的概念。這個模型接受輸入變量,並在應用於迴歸問題時,為目標變數產生一個值。最基本的神經網路是多層感知器。在這些模型中,只使用單一的神經元排列。更常見的是,神經網路將具有一個輸入層、一個或多個隱藏層(每個都有許多神經元)和一個輸出層來獲取值。
隱藏層中每個神經元內的加權輸入值被相加,並透過激活函數(如Sigmoid函數)傳遞。這個函數使模型非線性。一旦函數通過模型,它就到達包含單一神經元的輸出層。在訓練模型時,確定最適合特徵和目標值的權重和偏差。
對於那些新手來說,一個常見的誤解是會有一個正確的模型適合所有特定的需求。事實並非如此。選擇一個模型而不是另一個,其實是一個複雜的決策,部分基於資料科學家的經驗。
此外,這些監督迴歸模型不會每次都產生相同的結果。因此,不存在“最佳”模型,但有些模型可能更適合某些情況。
任何機器學習練習中的資料科學家和營運專家之間的合作都始於對涉及的參數、目標使用、開發和部署方法的相互理解。
以上是如何透過機器學習演算法設計軟感測器?的詳細內容。更多資訊請關注PHP中文網其他相關文章!