模型不收斂是怎麼回事?
1、反向傳播鏈斷裂即其中有部分的變數可能被轉換為numpy 數組,雖然仍然能夠參與計算,但卻失去了梯度傳播的能力,導致無法向後面的變數傳播梯度2、學習率設定不合理如果學習率設定得太大,則容易造成loss 變成nan,導致模型不收斂,設定得太小,則會導致模型學習得很慢3、神經網路層參數沒有進行好的參數初始化因為參數初始化會影響模型的訓練速度
1、反向傳播鏈斷裂即其中有部分的變數可能被轉換為numpy 數組,雖然仍然能夠參與計算,但卻失去了梯度傳播的能力,導致無法向後面的變數傳播梯度2、學習率設定不合理如果學習率設定得太大,則容易造成loss 變成nan,導致模型不收斂,設定得太小,則會導致模型學習得很慢3、神經網路層參數沒有進行好的參數初始化因為參數初始化會影響模型的訓練速度