Online learning — Follow the Regularized Leader

Follow the Regularized Leader (FTRL) 是解 Online Convex Optimization 問題非常常用的方法。以下將簡單介紹 Online Convex Optimization (OCO)，並從 Follow the Leader 的角度解釋為什麼需要 Regularizer。

繼續閱讀 “Online learning — Follow the Regularized Leader"

Online learning — introduction (2)

本篇接續《Online learning — introduction》，我們給出一個 online learning 十分常見的架構，以及從它衍伸出來的 regret 的定義做更充分的討論。繼續閱讀 “Online learning — introduction (2)"

Online Learning — Exponential Weighted Algorithm

在『Online learning — introduction』中的最後筆者有提到，環境、或是對手會有兩種常見的方式：一種是 Adversarial setting （作亂模式），一種是 Stochastic setting（隨機模式）。（p.s. 當然翻譯應該不是真的這樣翻，不過這樣應該會比較有助於直觀上的理解）。這篇文章中主要探討的是在 Adversarial setting 下，我們要如何聰明的設計演算法，以達到 $O(\sqrt{T})$ 的 regret。

繼續閱讀 “Online Learning — Exponential Weighted Algorithm"

Online learning — introduction (1)

什麼是線上決策問題？

彭明輝教授有一本書叫做《生命是長期而持續的累積》，這句話大概也可以作為研究「線上決策問題」的動機之一了。

繼續閱讀 “Online learning — introduction (1)"