Увод у Саберметрику

Source: http://www-math.bgsu.edu/~albert/papers/saber.html

 Јим Алберт

Шта је Саберметрика?

Саберметрика  је математичка и статистичка анализа бејзбол евиденције. Да бисмо разумели област Саберметрика, прво треба да буде упознат са игром бејзбол. Овај спорт је једна од најпопуларнијих игара у Сједињеним Америчким Државама; она се често назива {\ ит националног спорта}. Бејзбол почео у источном САД-у средином 1800-тих. Професионални бејзбол почео пред крај 18. века; Национална лига је основана 1876. и амерички лиге у 1900. Тренутно у Сједињеним Америчким Државама, има 28 професионални тимови у америчким и националним лигама и милиони људи гледају утакмице у баллпаркс и на телевизији.

Игра бејзбола

Игра бејзбол се игра између две екипе, свака се састоји од девет играча. Девет играчи су крчаг, а Цатцхер, прво база, другој бази, Схортстоп, трећи база, леви Фиелдер, центер фиелд и десну Фиелдер. Игра бејзбола састоји се од девет иннинга. Један ининг је подељен на две половине; у горњој половини иннингу, један тим игра у пољу, а други тим долази до палицом, а у доњем делу, тимови реверсе улоге. Тим који се удара током одређеног пола кругу покушава да постигне трчања. Тим са већим бројем трчања на крају девет иннинга је победник игре.

Током кругу, играч у тиму на терену, под називом бацач, баца бејзбол према играчу екипе у-палицом, под називом тесто. За поховање ће покушати да удари лопту користећи у месту дрвени штап (који се зове БАТ) ван домашаја од играча на терену. Од удара лопту, тесто има прилику да води око четири базе који се налазе на терену. Ако играч напредује око свих база, он је постигао брзим. Ако се тесто удари лопту која може бити ухваћен, или да могу бити бачен на прву базу пре него што ради на тој основи, онда се каже да се, и не може да постигне вожњу. Од смесе је такође да ли је он не успе три пута да удари бејзбол или ако су бацили три добре терене (тзв Стрикес). Циљ за ударања тима током кругу је да погоди што више ради као могуће пре добијања три аута.

Основни ударања Статистика

Један значајан аспект игре од бејзбола је богатство нумеричке информације које је забележено о игри. Ефикасност баттерс и крчага обично процењује одређеним нумеричким мерама. Уобичајена мера удара ефикасност за играча је просијек који се израчунава тако што се број погодака по броју на-слепих мишева. Ова статистика даје проценат могућности (на-слепих мишева) у којима је тесто успева (добија хит). За поховање са највећим ударања просека у току бејзбол сезоне се зове најбољи ударач те године. Баттерс такође процењују на њихову способност да се постигне један, два, три или четири базе на једним ударцем; ови хитови се зову респективно сингл, дубл, тројке, и хоме рунс. просек хидрауличког сабијања се израчунава тако што се укупан број база (укратко, Укупни базе) по броју могућности. Пошто је маса удари по броју база достигао, ова мера одражава способност тесто погодити дугу лопту за даљине. Највреднији хит у бејзболу је пун погодак када је играч напредује четири базе на један погодак. Број кућних стаза је снимљен за све играче и тесто са највећим бројем куће ради на крај сезоне је дато посебно признање.

Основни Питчинг Статистика

Велики број статистике се користе у евалуацији бокала. За одређену бацача, једна броји игара у којој је проглашен за победника или губитника и број пролаза дозвољених. Бокали се обично оцијенио у смислу просечног броја “зарађених” води дозвољених за девет иннинг игре. Друге статистике су корисни у разумевању бацању способности. Крчаг снима стрикеоут када тесто не удари лопту на терену и снима у шетњу када баци четири нетачне терене (кугле) у тесто. Крчаг који може да баци лопту веома брзо може да сними велики број стрикеоутс. Крчаг који је “дивља” или релативно непрецизни ће снимити велики број шетње.

Боље мера удара способност – стазе створене

Један од циљева Саберметрика је да пронађе добре мере ударају и питцхинг перформансе. Бил Џејмс (1982) пореди удара евиденцију о два играча, Јохнни досадне и Дицк Стуарт, који је играо у 1960. Досадне је тесто који је погодио за високу просијек али је погодио неколико хоум рана. Стјуарт, насупрот томе, имао је скроман, просијек, али је погодио велики број кућних трчања. Који је био вреднији гађао? Џејмс тврди да убица треба да се оцењује његову способност да креира трчи за свој тим. Из емпиријског истраживања великог колекције тим удара податке, он је основао следећу формулу за предвиђање броја пролаза бодова у сезони на основу броја погодака, шетње, на-палицама, и укупних база снимљене у сезони.

(HITS + WALKS) (TOTAL BASES)
RUNS = ----------------------------
             AT-BATS + WALKS

Ова формула одражава два важна аспекта у бодовању у бејзболу. Број погодака и шетње тима одражава способност тима да добије тркаче на бази. Број укупних база тима одражава способност тима да премести тркаче који су већ на бази. Ова креирана створена формула се може користити на појединачном нивоу за израчунавање броја трчања које играч ствара за свој тим. 1942. Јохнни Пески је имао 620 удараца, 205 хитова, 42 шетње и укупно 258 база; користећи формулу, створио је 96 трка за свој тим. Дик Стјуарт 1960. године имао је 532 слепих мишева са 160 ат-палицама, 34 шетње и 309 укупно база за 106 радова. Закључак је да је Стуарт 1960. године био нешто бољи хитлер од Пескиа 1942. године, јер је створио још неколико трка за свој тим.

Линеарне тежине

Алтернативни приступ евалуацији перформанси валовања заснован је на линеарној формули тегова. Георге Линдсеи (1963) је био прва особа која је додијелила вриједности за сваки догађај који би се могао десити док је тим пуцао. Коришћењем забележених података из бејзболских игара и теорије вероватноће, развио је формулу:

RUNS = (.41) 1B + (.82) 2B + (1.06) 3B + (1.42)  HR

где су 1Б, 2Б, 3Б и ХР респективно број појединачних, двоструких, троструких и кућних трка погођених у игри. Један од значајних аспеката ове формуле је тај што препознаје да тијело ствара три начина. Постоји потенцијал директног трчања када тастер добије ударац и постане на бази. Поред тога, тесто може унапредити тркаче који су већ на бази. Такође, ако не изађете, хитлер дозвољава новом тестеру шансу да добије ударац, а то ствара потенцијал индиректног трчања. Тхорн анд Палмер (1993) представљају софистициранију верзију формуле линеарних тежина која предвиђа број трчања произведених од стране просечног бејзбол тима заснованог на свим офанзивним догађајима забележеним током игре. Као и Јамес, креира формулисану формулу, правило линеарних тежина може се користити за процену успешности играча.

Трчи да победи

Иако је постизање резултата важно у бејзболу, основни циљ је да тим постигне више трки од свог противника. Да би сазнали о односу између постигнутих трка и броја победа, Јамес (1982) је погледао број произведених трка, број дозвољених радова, број победа и број губитака током сезоне за велики број недавно екипе великих лига. Џејмс је напоменуо да је однос победа тима са губицима приближно једнак квадрату односа вожње које су постигнуте на дозвољеним путовима. Еквивалентно,

            WINS                    RUNS^2
RUNS = --------------   =   --------------------------- .
        WINS + LOSSES        RUNS^2 + OPPOSITION RUNS^2

Овај однос се може користити за мерење учинка тестере у смислу броја победа које он ствара за свој тим.

Боља мјера способности пуцања

Саберметрика је такође развио боље начине процене способности пуцања. Стандардна статистика за скокове, број победа и зараде по утакмици (ЕРА) су погрешни. Број победа бацача може само да одрази чињеницу да се бори за добар офанзиван (рун сцоре) тим. ЕРА мјери брзину ефикасности бацача, али не говори о стварној погодности овог бацача током цијеле сезоне. Тхорн и Палмер (1993) су развили формулу за прављење нагиба

League ERA
PITCHING RUNS = Innings Pitched x -----------  - ER.
                                      9

Фактор (Лига ЕРА / 9) мјери просечне количине дозвољене по иннингу за све екипе у лиги. Ова вриједност се помноти са бројем иннинга постављених тим бацачем — овај производ представља број трчања које би бацач дозволио током сезоне ако је био просечан. Најзад, један одузима стварне зараде (ЕР) бацач дозвољен за ту сезону. Ако је потезање веће од 0, онда је овај бацач бољи од просјека. Ова нова мера је корисна за мерење ефикасности и издржљивости бацача.

Проценат играча

Развијене су добре мере ударања, нагињања и постављања басебалл играча. Међутим, ова статистика не мери директно допринос играча у побједу за свој тим. Беннетт и Флуецк (1984) су користили податке из две бејзбол сезоне да би проценили вероватноћу да домаћин тим добије игру с обзиром на диференцијацију трке (домаћин тим води минус гостујући тим), половина иннинга (врх или дно ининга), број излаза и ситуација на бази. Користећи ове процењене вероватноће, може се видети како вероватноћа освајања промена за сваки догађај у игри. Можемо да измеримо допринос играча у освајању игре сумирајући промене у вероватноћама победе за сваку игру у којој је играч учествовао. Ова статистика, названа Плаиер Гаме Перцентаге, користио је Беннетт (1993) да би оценио учинак удараца Јое Јацксон-а. Овај играч је протеран из бејзбола због наводног бацања Светске серије из 1919. године. Статистичка анализа која је користила Плаиер Гаме Перцентаге показала је да је Џексон током овог серијала играо свој пун потенцијал.

Делати прилагођавања

Људи занима у поређењу Баттерс или бокала из различитих епоха често. Приликом доношења ових поређења, важно је да видите удара или увалити статистику у контексту у којем су постигнути. На пример, Бил Тери је предводио Националну лигу 1930. са ударања просеком од .401, знака који је надмашио од само један утакмице. Године 1968. Карл Иастрземски водио америчку лигу у ударање са просеком од .301. Она се појављује на површини да Тери је био јасно супериорна гађао. Међутим, када се посматра у односу на ударача који су играли у исто време, оба Хиттерс су око 27 одсто боље од просека убица (Тхорн и Палмер, 1993). Удараца достигнућа Терри у 1930. и Иастрземски у 1968. су заправо врло слични. Исто тако,

Леарнинг фром изабраног података

Гледа бејзбол утакмицу поставља питања да мотивишу занимљиве статистичке анализе. Током емитовања игре, бејзбол спикер ће обично пријављују изабран удара податке за играча. На пример, може се пријавио да Бери Обвезнице има 10 хитова у својој најновијој 20 у-палицама. Шта сте научили о просијек обвезнице по основу ове информације? Јасно, просијек обвезнице не може бити тако велика као 10/20 = .500 од ове податке је изабран како би се повећала пријавио проценат. Касела и Бергер (1994) конструишу вероватноћу функцију за правог просијек играча на основу овог изабраног информација и наћи максималну процену веродостојности. Они закључују да је само ове изабране податке даје мало увид у “комплетан података” ударања просека који се добија од удара евиденције преко целе сезоне.

Стреакинесс?

Још једно занимљиво питање је о постојању стреакинесс у ударање податке. Током сезоне примећено је да ће неки кошаркаши доживети периоде “вруће” ударање где ће добити висок проценат погодака. Други Хиттерс ће проћи кроз рецесије или периоде удара са веома мало погодака. Али ови периоди топле и хладне удараца може бити само одраз природног варијабилности посматраног у новчића бацање. Да ли постоји статистички доказ за “врућу руке” међу бејзбол ударача где је вероватноћа добије хит зависи од недавно у-палицама? Олбрајт (1993) погледао велику колекцију бејзбол удара података и користи велики број статистичких података, као што су број стаза за откривање стреакинесс у ударање података. Његов главни закључак је био да је мало статистички подаци углавном за топлу руку у бејзболу удара.

Ситуатионал подаци

Тренутно постоји велико интересовање међу навијачима и медијима у ситуационо података бејзбол. Удараца перформансе баттерс се бележи велики број различитих ситуација, као што је дан против ноћне утакмице, на ливада и вештачком травом поља, против крчага који бацају игре дешњак и леворук, а током Хоме анд Аваи. Постоје два основна питања у статистичке анализе ове врсте података. Прво, да ли постоје посебне ситуације које могу да објасне значајну количину варијације у подацима удараца? Друго, постоје кошаркаши који обављају посебно добро или лоше у датој ситуацији? Алберт (1994) анализирали су великих тело објављених ситуационих података и користи Баиесиан хијерархијске комбиновање података из велике групе играча. Његов основни закључак је да не постоје неке важне ситуације. На пример, Баттерс хит у просеку 20 поена већи када се суочава крчаг са супротне руке и ударио 8 поена виша када играју у матичној Баллпарк. Међутим, постоји генерално мало статистички подаци за индивидуалне разлике у овим ситуационих ефеката.

Предвиђање

Мајор Леагуе Басебалл је тренутно подељена у шест дивизија и један циљ сваког тима је да први заврши у њеној подели. Претпоставимо да је део сезоне је завршен. Користећи бележи тимова из овог делимичног сезоне, могуће је прецизно предвидети победника поделама? Барри и Хартиган (1993) користити модел избора за вероватноћу да тим осваја индивидуални игру. Овај модел омогућава различите јачине између тимова, различите предности куће, а екипа предности које могу случајно мењају са временом. Аутори користе овај модел за симулацију резултата будућих бејзбол утакмице и проценити вероватноћу да ће сваки тим победи своје одговарајуће поделе.

Тренутно, Мајор Леагуе Басебалл игре су снимљени у веома финих детаља. Информације о сваком појединачном лопту коси, на терен и ударио у току игре се истакао, ствара велику базу података статистике бејзбол. Ова база података се користи у више начина. одељења за односе са јавношћу тимова користе податке за објављивање посебних статистику о својим играчима. Статистика се користе како би се утврдило плата Мајор Леагуе кошаркаши. Наиме, статистички подаци се користе као доказ у платном арбитраже, правног поступка који поставља плате. Један број тимова су запослени са пуним радним временом професионалне статистичке аналитичари и неки менаџери користе статистичке податке у одлучивању о стратегије током игре.

Референце

  1. Albert, J. (1994), “`Exploring baseball hitting data: what about those breakdown statistics?”, Journal of the American Statistical Association , 89, 1066-1074.
  2. Albright, S. C. (1993), “A statistical analysis of hitting streaks in baseball,” Journal of the American Statistical Association , 88, 1175-1183.
  3. Barry, D., and Hartigan, J. A. (1993), “Choice Models for Predicting Divisional Winners in Major League Baseball,” Journal of the American Statistical Association , 88, 766-774.
  4. Bennett, J. M. (1993), “Did Shoeless Joe Jackson Throw the 1919 World Series?”, The American Statistician, 47, 241-250.
  5. Bennett, J. M. and Flueck, J. A. (1984), “Player Game Percentage”, in Proceedings of the Social Statistics Section, American Statistical Association, 378-380.
  6. Casella, G. and Berger, R. (1993), “Estimation With Selected Binomial Information or Do You Really believe that Dave Winfield is Batting .471?”, Journal of the American Statistical Association , 89, 1080-1090.
  7. James, B. (1982), The Bill James Baseball Abstract, New York: Ballantine Books.
  8. Lindsey, G. (1963) “An Investigation of Strategies in Baseball,” Operations Research, 11, 447-501.
  9. Thorn, J. and Palmer, P. (1993), Total Baseball, New York: Harper Collins.