야구와 통계의 인연은 1916년 미국의 야구 잡지 편집자 페르난디드 콜 레인으로부터 시작됐다. 그는 안타와 장타의 가치를 구분하지 못하는 타율 기록에 의문을 품었고, 레인이 던진 물음표는 미국야구연구협회(SABR)을 거쳐 야구 통계의 발전으로 이어졌다. 바로 세이버 메트릭스(야구 통계학)의 시작이다.
100여년이 지난 지금 세이버 메트릭스는 프로야구 전반에 걸쳐 막강한 영향력을 끼치고 있다. 선수나 구단 관계자뿐 아니라 일반적인 팬들조차 익숙할 정도로 대중화에도 성공했다.
이쯤에서 한 번쯤 의문이 생길 수 있다. 왜 세이버 메트릭스가 스포츠 통계의 선두 주자일까? 왜 가장 유명할까? 프로야구가 인기 종목이기 때문이라는 건 일리가 있다. 하지만 전 세계에서 가장 유명한 스포츠는 단연 축구다. 야구의 본고장 미국에서도 인기로는 미식축구(NFL)가 압도적이다. 미국프로농구(NBA)도 최근 성장세에 힘입어 야구를 위협하고 있다.
종목 역사가 길다는 것으로도 야구 통계의 발전을 설명할 수는 없다. 농구도 19세기에 시작됐다. 축구의 시작은 그보다도 훨씬 과거의 일이다. 야구의 인기나 역사는 위에서 던진 의문의 해답이 될 수 없다.
해답은 야구 고유의 특성에 있다. 야구는 한 경기에 많은 선수가 출전한다. 이들을 정확하게 평가하려면 선수당 수집된 데이터의 크기가 충분해야 한다. 그런데 한 경기에 한 선수가 만드는 출장 결과는 한계가 있다. 한 경기에 등판하는 투수는 제한적이고, 타자는 5번 이상 타석에 들어서기 어렵다.
하지만 야구는 '반복 스포츠'다. 경기 중 별개의 사건이 반복되고, 서로 영향을 주고받지 않는 '독립적 특성’을 가진다. 독립 사건은 통계 분석을 단순하게 만든다. 그래서 야구 통계는 모형화하기 쉽고, 객관적으로 분석하기 용이하다.
대표적인 게 PBP(play-by-play) 데이터다. PBP 데이터는 한 경기 결과를 잘게 쪼갠다. 타자는 타석별 결과(첫 번째 타석 3루수 앞 땅볼, 두 번째 타석 중견수 앞 안타)를, 투수는 상대 타자별 투구 결과(첫 번째 타자 2루 땅볼, 두 번째 타자 우중간 2루타)를 선수 개개인별로 모을 수 있다.
PBP 데이터는 수집하기 쉽다. 경기에 끊김이 잦아서다. 선수들의 위치와 역할이 미리 정해져 있고, 아웃 카운트 3개로 공수교대가 이루어진다. 매 타격 결과와 투구 사이에는 모든 플레이가 중단되며 인플레이 상황의 시간도 길지 않다. 모든 투구와 타격 결과는 스트라이크, 볼, 파울, 안타, 장타, 삼진, 아웃 등으로 범주화 되어 정리된다.
다른 종목은 야구와 다르다. 경기 중 각 사건이 독립적이지 않고, 서로 영향을 주고받는 ‘종속적 특성’이 강하다. 그래서 통계를 통한 객관적 분석이 훨씬 어렵다.
축구가 대표적이다. 축구는 45분 안팎의 시간 동안 패스, 드리블, 슈팅들이 상호 간에 끊임없이 영향을 주며 진행된다. 가령 어떤 공격수가 골을 넣었다고 해보자. 득점은 공격수의 온전한 성취가 아니다. 수비수가 상대방의 공격을 잘 막아내고, 미드필더가 공을 잘 넘겨줘야 한다. 여러 상황들이 어우러져야 최종 결과물인 골이 나올 수 있다.
최근 데이터 활용이 도입되고 있는 골프나 종합격투기 UFC 종목 역시 종속성이 강하다. 골프는 첫 시작 지점을 제외하면 과거의 결과가 현재의 스윙에 영향을 크게 미친다. 앞선 스윙의 결과에 따라 주어지는 그라운드와 주변 지형지물의 조건이 천차만별이기 때문이다. UFC도 직전의 공격, 수비 결과에 따라 선수가 취할 수 있는 행동의 폭이 크게 달라진다.
경기 수 역시 야구를 분석하기 쉽게 만들어주는 요소다. 메이저리그(MLB)는 한 시즌에 팀 당 162경기를, KBO리그는 144경기를 치른다. 반면 NBA는 82경기, 잉글랜드 프리미어리그(EPL)은 38경기만 치르고 한 시즌을 마감한다. 심지어 NFL은 고작 17경기만 하고 시즌이 끝난다. 포스트시즌(PS)까지 고려한다면 프로야구의 경기 횟수는 타 프로 스포츠의 두 배 이상까지 늘어난다.
경기 수가 많아지면 데이터의 양도 증가한다. 이는 통계학에서 검정력에 영향을 주는 '표본의 크기(샘플 사이즈)'로 이어진다. 통계 분석의 타당성을 확보하려면 충분한 데이터의 양, 혹은 표본의 크기가 일정 수준 이상 필요하다. 이를 '큰 수의 법칙(Law of Large Numbers, LLN)'이라고 한다. 야구는 타 스포츠에 비해 큰 수의 법칙을 만족하기에 유리한 조건을 가지고 있다. 거의 매일 열리는 경기 덕분에 통계가 발전할 수 있는 환경이 조성된 셈이다.
통계 발전에 화룡점정을 찍어준 게 개방성이다. 데이터가 아무리 쌓여도 공개되지 않은 채 어딘가에서 썩어가고 있었다면, 야구 통계의 발전은 빠르게 한계에 부딪혔을 거다. 하지만 현재 프로야구의 모든 기록지 데이터는 전산화돼 대중에 공개된다.
공개된 데이터는 팬들의 '장난감'이 됐지만, 이는 놀이를 넘어 새로운 고찰과 식견으로 이어지기도 한다. 야구 기록은 쉽고 재밌다. 간단한 사칙 연산이나 평균, 중앙값, 표준편차 계산만 할 수 있어도 누구나 기록을 뜯어볼 수 있다. 실제로 빌 제임스를 비롯해 세이버 메트릭스의 발전을 이끌었던 사람 대다수는 구단 관계자가 아닌, 야구를 사랑하는 다양한 직업군의 일반인들이었다.
이들은 야구를 즐기기 위해 시작했지만, 곧 야구를 바꾸기 시작했다. '머니볼'의 등장 이후 MLB 구단들은 출루율을 중시하게 됐고, BABIP(인플레이 타구 타율)의 의미를 고민하도록 변했다. '마지막 4할 타자' 테드 윌리엄스의 이론이 통계와 맞물려 장타를 양산하는 '뜬공 혁명'도 이제 MLB에서는 상식으로 꼽힌다.
통계가 본질을 바꾼 건 아니다. 야구를 지배하지도, 야구를 망치지도 않았다. 다만 본질을 탐구할 뿐이다. 1950~60년대 뉴욕 양키스 간판 스타였던 미키 맨틀은 "우린 평생 해온 경기에 대해 놀랄 정도로 무지하다(It's unbelievable how much you don't know about the game you've been playing all your life)"고 했다.
80년 이상 지났지만 여전히 야구는 수수께끼 투성이다. 그때도, 지금도 숫자는 답을 찾고 있을 뿐이다.