SGD(1) — for non-convex functions

這一系列文主要要介紹一個非常常用到,幾乎是所有做機器學習、深度學習的人都會知道的方法,Stochastic Gradient Descent (SGD) ,大家幾乎把它當基本常識用,但其實他藏有非常神秘、強大的力量。一開始是實驗做多了大家意外的發現,近幾年才開始慢慢有理論研究給予驗證,雖然結果仍然十分有限,但也足夠我們相信這條路應該還有更多有趣的故事可以發掘。但在這之前要先做一點簡單的背景介紹。

繼續閱讀 “SGD(1) — for non-convex functions"