2015年9月19日

前往資料科學之道 - Sabermetrics 101: Introduction to Baseball Analytics

參與edX的課程:Sabermetrics 101: Introduction to Baseball Analytics 些許心得
"Sabermetrics is the study of the game of baseball through observation and experimentation (when applicable)."
原本一些對棒球充滿興趣的人希望可以使用數據紀錄比賽情況,當人無法觀看現場或是轉播時,可以透過這些數據重建比賽的狀況。後來逐漸對數據分析愈來愈重視,所以開始探討數據能否儘可能地代表球員、球隊的能力,而不是結果。因為結果會受到外在各種因素影響:天候、場地,甚至運氣。

近年資料儲存以及收集技術的改進讓球團也開始注重其應用:像是要不要交易某個球員,球員的薪水是否過高或過低,或根據各球員守備能力範圍,安排其站點等議題。

課程內容:

課程分為四大方向:
  • Sabermetrics
  • Statistic
  • Tech (SQL and R)
  • History of Sabermetrics
主要部份為Sabermetrics的原理、公式和發展史,R部份很少、統計觀念也很少,都只提到課程會用到的部份。本課程另外一個重點是SQL,學習者可以透過網頁介面練習sql指令,操縱實際運行的關聯式資料庫(Lahman database, Retrosheet Database).

課程也討論了某些數據的意義,這邊舉兩個例子:

有時我們仍以舊的方式看這些數據,卻沒發現時空背景的變化,同樣的數據所代表的意義已經大為不同。

例如Wins/ Losses (勝投數),這個數據在1945年以前可能比較有用,因為當時救援投手的每場使用率並不高,而一個投手撐完9局的情況比現在多,Wins/ Losses這個數據的確可以代表著投手的能力。然而1945年後,每一場比賽中參與的投手愈來愈多,現在則幾乎看不到完全比賽。

另外,投手沒有辦法控制他們可以得到的後援(run support),像是守備球員的能力:一個能力差的投手但卻有強勁的守備球員,與能力強的投手和差勁守備的組合相比較,前者的紀錄可能會比後者優良。

所以Wins/ Losses所代表的意義已逐漸從單一投手的能力,逐漸轉化成整個球隊的能力。

一個能力在平均值的大聯盟球員,其價值高不高?

如果我們可以找到世界上所有玩棒球的人,將他們的能力測量後用一張圖表現,理論上會成為常態分佈。


但是美國職棒大聯盟選手能力分佈情形很有趣,透過人為選擇將原本處於上圖右側的人(前5%)選進大聯盟,這些人所構成的分佈圖會變成這樣。

那一個能力在平均值的大聯盟球員,其價值對於球團而言會有多高?

在理解這個問題之間,我們必須先了解大聯盟球員能力的分佈圖屬於right skewed,也就是說平均值(58.07785)會大於中位數(57.67149),所以一個在大聯盟中「能力中等」的球員,一般來說不會有被踢掉的危險,因為他至少比一半的大聯盟球員還要強。

但是如果球員能力位於 replacement level (可被替代的水平),例如上圖左側,那麼他在大聯盟的地位就會很危險,因為跟他有一樣能力的人很多。對於球團來說,重要的是爭取位在極右處球員加入球隊。而剩下來尚未填補的空位,對球團而言則是原本就要花的錢,不論是誰都可以。所以那些能力處於可被替代水準的球員,常常會上上下下,甚至被小聯盟的球員代替,就算被選上,薪資也不高。

所以一個能力在平均值的大聯盟球員,其價值其實比我們一般對於「平均」的印象還要高出許多。

結論

本課程非常適合本來就對棒球有興趣,想要瞭解各項數據意義的人。但對於一個不了解棒球的人來說,除了許多縮寫之外,還有許多棒球專門術語,教材有時並不會用平白的英語描述,所以難度相對較高。

不過可以查詢並下載一個真實的資料庫則是一個不錯的賣點 ,其蒐集了1871年到 2014年大聯盟球員比賽的資料,但要注意的是本課程並不會教導透過R對資料庫下SQL指令,而是將查詢結果下載成為csv檔,再開啟R讀取。

沒有留言:

張貼留言

為避免垃圾訊息,留言需檢視後會才會顯示,請見諒。