август 28, 2017

Вовед во Саберметријата

Original: http://www-math.bgsu.edu/~albert/papers/saber.html

Од Jim Albert

Што е Саберметрија ?

Саберметрија е математички и статистички анализи на безбол евиденција. За да се разбере од областа на sabermetrics, прво треба да се запознаат со играта на бејзболот. Овој спорт е еден од најпопуларните игри во САД; тоа често се нарекува {\ тоа национално хоби}. Бејзбол започна во источниот дел на САД во средината на 1800 година. Професионален бејзбол започна кон крајот на 18 век; Националната лига е основана во 1876 година и американската лига во 1900 година Во моментов во САД, има 28 професионални тимови во Америка и национални лиги и милиони луѓе се види игри во ballparks и на телевизија.

На играта на бејзболот

На играта на бејзболот се игра помеѓу два тима, секој се состои од девет играчи. Девет играчи се стомна, а Catcher, првиот подмачкано база, вториот подмачкано база, shortstop, трета а база, лево Fielder, центар Филдер и право Fielder. А играта на бејзболот се состои од девет innings. Еден inning е поделена на две половини; во горната половина на inning, еден тим игра во оваа област и на вториот тим доаѓа на лилјак, а во долниот дел, тимовите ги сменат улогите. Тимот кој вата за одреден пол-inning се обидува да постигне гол работи. Тимот со поголем број на терените на крајот на девет innings е победник на играта.

За време на inning, играч на тимот во областа, наречена стомна, фрла кон безбол играч на тимот во-лилјак, наречен тесто. Тесто ќе се обиде да ја погоди топката со помош на дрвена стап (наречен лилјак) на локација надвор од дофатот на играчи во оваа област. Со притискање на топката тесто има можност да се кандидира околу четири бази кои се наоѓаат во оваа област. Ако играчот напредува низ сите основи, тој има постигнато рок. Ако тесто хитови на топката што можат да бидат фатени или дека може да биде фрлена до првата база пред тој работи на таа база, а потоа тој се вели дека е надвор, и не може да се постигне рок. А тесто е, исто така, ако тој не успее да ја погоди безбол три пати или три добри терени (наречен штрајкови) биле фрлени. Целта на тимот на вата за време на измена е да се освојат што поголем број работи што е можно повеќе пред да добие три копии.

Основни статистички податоци вата

Еден голем аспект од играта на бејзболот е богатството на нумерички информации кои се снимени за играта. Ефективноста на batters и бокали обично се оценува од страна на одредени нумерички мерки. Вообичаената мерка за удирање ефикасност за некој играч е просекот на вата која се пресметува со делење на бројот на посети од страна на бројот на на-лилјаци. Оваа статистика дава процентот на можности (на-лилјаци), во која успева тесто (добива хит). Тесто со највисок просек вата за време на безбол сезона се нарече најдобар играч за таа година. Batters, исто така, се оценуваат врз основа на нивната способност да стигнат до еден, два, три или четири бази на еден хит; овие прегледи се нарекуваат соодветно синглови, двојки, тројки и домашни работи. просекот на голтка се пресметува со делење на вкупниот број на бази (на кратко, Вкупно бази) според бројот на можности. Со оглед на тоа тежини хитови со бројот на бази постигнат, оваа мерка се одразува на способноста на тесто да се погоди една долга длабинска топка за далечина. Најмногу ценети хит во безбол е дома кандидира каде што играчот напредува четири бази на еден хит. Бројот на домашни работи е снимен за сите играчи и тесто со најголем број на домашни работи на крајот на сезоната се дава посебно признание.

Основни статистички податоци склон

Голем број на статистички податоци се исто така се користи во евалуација на бокали. За одредена стомна, еден се брои бројот на игри во кои тој беше прогласен за победник или губитник, а бројот на терените дозволено. Бокали обично се проценува во однос на просечниот број на “заработи” работи дозволено за девет inning играта. Други статистички податоци се корисни во способноста склон разбирање. Стомна бележи strikeout кога тесто не го погоди топката во поле и евиденција на прошетка, кога тој го фрла четири неточни терени (топчиња) во тесто. Стомна кој може да ја фрлаат топката многу брзо може да снима голем број на strikeouts. Стомна кој е “дива” или релативно неточни ќе ги сними голем број на прошетки.

Подобра мерка за удирање способност – работи создадени

Една од целите на sabermetrics е да се најде добри мерки за удирање и склон перформанси. Бил Џејмс (1982) ги споредува вата евиденција на двајца играчи, Џони досаден и Дик Стјуарт, кој играше во 1960-тите. Досаден беше тесто кој погоди за висок просек вата но ја погоди неколку домашни работи. Стјуарт, пак, имаше скромен просек вата, но наишле на голем број на домашни работи. Кој беше повеќе вредни играч? Џејмс тврди дека играч треба да се оценува од страна на неговата способност да се создаде работи за неговата екипа. Од емпириска студија на голема колекција на тимот притискање на податоци, ја основа на следната формула за предвидување на бројот на терените голови во една сезона врз основа на бројот на прегледи, прошетки, на-лилјаци, и вкупно бази снимени во една сезона.

       (HITS + сфери) (ВКУПНО бази)
Обработува = ----------------------------
             AT-BATS + сфери

Оваа формула се одразува две важни аспекти во постигнувајќи работи во бејзбол. Бројот на посети и сфери на тим одразува способноста на тимот да се добие тркачи на база. Вкупниот број на бази на тимот одразува способноста на тимот да се движат тркачи кои се веќе на база. Ова трае создаде формула може да се користи на индивидуално ниво да се пресмета бројот на работи што играчот создава за неговата екипа. Во 1942 година, имаше 620 Џони досаден на-лилјаци, 205 хитови, 42 прошетки, и 258 Вкупно основи; со користење на формулата, што го создаде 96 работи за неговата екипа. Дик Стјуарт во 1960 година имаше 532 на лилјаци со 160-на-лилјаци, 34 прошетки, и 309 Вкупно основи за 106 работи создадени. Заклучокот е дека Стјуарт во 1960 година беше малку подобар играч од досаден во 1942 година, бидејќи тој создаде уште неколку работи за неговата екипа.

Линеарни тежини

Алтернативен пристап за оценување на ефикасноста вата е врз основа на линеарна тежини формула. Џорџ Линдзи (1963) бил првиот човек да му ја додели рок вредности на секој настан што може да се случи додека тимот беше вата. Со употреба на снимените податоци од безбол игри и теоријата на веројатност, тој разви формулата

Обработува = (.41) 1B + (.82) 2B + (1.06) 3B + (1.42) HR

каде 1Б, 2Б, 3Б и човечки ресурси се соодветно на бројот на синглови, двојки, тројки, и дома работи удри во една игра. Еден голем аспект на оваа формула е тоа што признава дека тесто создава рок на три начини. Постои директна рок потенцијал кога тесто добива хит и добива на база. Покрај тоа, тесто може да се унапреди тркачи кои се веќе на база. Исто така, со тоа што не добива надвор, на играч овозможува ново тесто шанса за добивање хит, што произведува индиректна рок потенцијал. Трн и Палмер (1993) го претстави пософистицирана верзија на формулата за линеарни тежини која предвидува бројот на терените произведени во просек безбол тим врз основа на сите на офанзивата настани забележани во текот на играта. Како работи Џејмс создаде формула, владеењето на линеарна тегови може да се користи за да се оцени ефикасноста на вата на играчот.

Работи да се победи

Иако домаќините работи е важно во бејзбол, основната цел е за тимот да се освојат повеќе работи отколку неговиот противник. Да се ​​запознаат со односот помеѓу траки постигна и бројот на победи, Џејмс (1982) погледна бројот на терените произведени, бројот на терените дозволено, бројот на победи, а бројот на загуби за време на сезоната за голем број на неодамнешните големи тимови во лигата. Џејмс истакна дека односот на победи на тимот да се загуби била приближно еднаква на квадратот на односот на терените постигна на терените дозволено. еквивалентно,

            WINS ВодИ ^ 2
Обработува = -------------- = ---------------------------.
        WINS + ЗАГУБИ обработува ^ 2 + ОПОЗИЦИЈАТА ВодИ ^ 2

Оваа врска може да се користи за мерење на ефикасноста на тесто во однос на бројот на победи што ги создава за неговата екипа.

Подобра мерка за способноста склон

Sabermetrics има развиено и подобри начини за оценување склон способност. Стандард статистика склон, бројот на победи и заработи работи по натпревар (ЕРА) се недостатоци. Бројот на победи на стомна само може да се одрази на фактот дека тој терени за екипата добра офанзива (кандидира бодување). ЕРА се мери стапката на ефикасност стомна, но тоа не ви кажам за вистински корист на овој стомна во текот на целата сезона. Трн и Палмер (1993) го развил склон тече формула

                                  ЕРА лига
Склон ВодИ = innings коси x ----------- - скоро време.
                                      9

Факторот (Лига ЕРА / 9) ја мери просечната работи дозволено по inning за сите тимови во лигата. Оваа вредност се множи со бројот на innings стан со тоа стомна – овој производ претставува број на работи што стомна ќе им овозможи во текот на сезоната, ако тој е просек. Последно, еден одзема реалните заработил работи (ER) стомна е дозволено за таа сезона. Ако склон работи е поголем од 0, тогаш ова стомна е подобро од просекот. Оваа нова мерка се појавува да биде корисно за мерење на ефикасноста и трајноста на стомна.

Процент игра плеер

се развиени добри мерки за удирање, склон, и Филдинг перформанси на безбол играчи. Сепак, овие статистички податоци не се директно мерење придонес на играчот на победа за неговата екипа. Бенет и Flueck (1984) што се користат податоци од две безбол сезони за да се процени веројатноста домашната екипа ќе победи на играта со оглед на рок диференцијални (домашната екипа тече минус гостите трае), на половина inning (горниот или долниот дел од inning), на број на падовите на напонот, и ситуацијата на база. Користењето на овие проценува веројатности, може да се види како на веројатност за победа промени за секоја игра настанот. Еден може да се измери придонес на играчот за освојување на игра со собирање на промените во веројатноста за победа секоја игра во која играчот има учествувано. Оваа статистика, наречен Процент играчи, се користи од страна Бенет (1993) да се оцени ефикасноста вата на Џо Џексон. Овој играч беше протеран од безбол за наводно фрлање на светското првенство 1919 година. Статистичка анализа со користење на Процент Player Игра покажа дека Џексон одигра да го искористи својот потенцијал во текот на оваа серија.

Прави корекција

Луѓето често се заинтересирани за споредување batters или бокали од различни епохи. Во донесувањето на овие споредби, важно е да ја видите вата или склон статистика во контекст во кој тие се постигнати. На пример, Бил Тери го предводеше Националната лига во 1930 година со вата просек од 0,401, знак дека е надмината од страна на само еден играч. Во 1968 година, Карл Yastrzemski предводеше американската лига во притискање со просек од 0,301. Тоа се појавува на површината што Тери беше јасно супериорен играч. Сепак, кога се гледа во однос на hitters што играше во текот на исто време, и hitters беа околу 27 отсто подобро од просекот играч (Трн и Палмер, 1993). На притискање достигнувања на Тери Yastrzemski во 1930 и во 1968 година, всушност, биле многу слични. Исто така,

Учење од избраните податоци

Гледајќи безбол игра покренува прашања кои ги мотивираат интересни статистички анализи. Во текот на емитувањето на играта, безбол најавувач обично ќе поднесе извештај избраните притискање на податоци за еден играч. На пример, тоа може да се забележи дека Бери обврзници има 10 хитови во последните 20-на неговата лилјаци. Што сте научиле за вата просек обврзници “, врз основа на оваа информација? Јасно, вата просек обврзници “не може да биде голем како 10/20 = .500 од овие податоци е избран за да се зголеми Пријавени процент. Casella и Бергер (1994) изградба функција веројатноста за вистински вата просек на играчот врз основа на овој одбрани информации и да се најде максималниот проценка веројатност. Тие се сомневаат дека овој избрани податоци обезбедува само малку увид во “целосна податоци” вата просек кој е добиен од вата евиденција во текот на целата сезона.

Просторност?

Друго интересно прашање е за постоењето на streakiness во притискање на податоци. За време на сезона, тоа е забележано дека некои играчи на топки ќе доживее период на “жешки” удирање каде што ќе се добие висок процент на хитови. Други напаѓачи ќе одат преку рецесии или периоди за удирање со многу малку хитови. Но, овие периоди на топло и ладно удирање може да биде само одраз на природната варијабилност согледана во монета превртував. Дали постои статистички докази за “жешка рака” меѓу безбол напаѓачи каде што веројатноста за добивање хит е зависна од последните во-лилјаци? Олбрајт (1993) погледна голема колекција на безбол удирање на податоци и се користат голем број на статистички податоци како што се бројот на работи за откривање streakiness во притискање на податоци. Неговиот главен заклучок е дека има малку статистички докази генерално за топла рака во безбол удирање.

Ситуациона податоци

Во моментов постои голем интерес кај навивачите и медиумите во ситуациона податоци бејзбол. На притискање на ефикасноста на batters е снимен за голем број на различни ситуации, како што ден наспроти ноќта игри, на трева полиња и вештачка трева полиња, против бокали кои фрлаат десната рака и левата рака, а во текот дома и на гости игри. Постојат две основни прашања во статистичката анализа на овој тип на податоци. Прво, постојат одредени ситуации кои може да се објасни значителен износ на варијација во податоците за удирање? Второ, постојат играчи на топки кои вршат особено добро или лошо во дадена ситуација? Алберт (1994) анализирани едно големо тело на објавени податоци ситуации и се користи Bayesian хиерархискиот модел ги комбинира податоците од голема група на играчи. Неговата основна констатација е дека постојат некои важни ситуации. На пример, batters хит во просек 20 поени, кога се соочуваат со стомна на спротивната рака, и погоди 8 поени, кога тие се повеќе се игра во нивниот дом груба проценка. Сепак, постои генерално малку статистички податоци за индивидуалните разлики во овие ситуации ефекти.

Предвидување

Лигата на големи Бејзбол моментов е поделен на шест дивизии и еден гол на секој тим е да се заврши прв во својата дивизија. Да претпоставиме дека дел од сезоната е завршена. Користење на евиденција на тимовите од оваа делумна сезона, тоа е можно да се предвиди точно на победниците на поделби? Бери и Hartigan (1993) се користи моделот на избор за веројатноста дека тимот победува индивидуална игра. Овој модел овозможува за различни сили помеѓу тимовите, различни дома предности, а тимот на предности кои може да се промени по случаен избор со текот на времето. Авторите го користи овој модел да се симулираат резултатите од идните безбол игри и проценка на веројатноста дека секој тим ќе победи својата соодветните оддели.

Во моментов, Лигата на големи Бејзбол игри се евидентирани во многу фини детали. Информации за секоја топка стан, играл и погоди за време на игра се истакна, создавање на голема база на податоци статистика бејзбол. Оваа база на податоци се користи во голем број на начини. одделенија на тимови за односи со јавноста ги користат податоците да се објават посебни статистички податоци за нивните играчи. Статистиките се користи за да се утврди на платите на главните играчи на топки лига. Поточно, статистички податоци се користат како доказ во арбитража плата, законски спроведена постапка која ги поставува плати. Голем број на тимови се вработени со полно работно време професионална статистички аналитичари и некои менаџери ги користат статистички информации во одлучувањето за стратегијата за време на игра.

Референци

  1. Albert, J. (1994), “`Exploring baseball hitting data: what about those breakdown statistics?”, Journal of the American Statistical Association , 89, 1066-1074.
  2. Albright, S. C. (1993), “A statistical analysis of hitting streaks in baseball,” Journal of the American Statistical Association , 88, 1175-1183.
  3. Barry, D., and Hartigan, J. A. (1993), “Choice Models for Predicting Divisional Winners in Major League Baseball,” Journal of the American Statistical Association , 88, 766-774.
  4. Bennett, J. M. (1993), “Did Shoeless Joe Jackson Throw the 1919 World Series?”, The American Statistician, 47, 241-250.
  5. Bennett, J. M. and Flueck, J. A. (1984), “Player Game Percentage”, in Proceedings of the Social Statistics Section, American Statistical Association, 378-380.
  6. Casella, G. and Berger, R. (1993), “Estimation With Selected Binomial Information or Do You Really believe that Dave Winfield is Batting .471?”, Journal of the American Statistical Association , 89, 1080-1090.
  7. James, B. (1982), The Bill James Baseball Abstract, New York: Ballantine Books.
  8. Lindsey, G. (1963) “An Investigation of Strategies in Baseball,” Operations Research, 11, 447-501.
  9. Thorn, J. and Palmer, P. (1993), Total Baseball, New York: Harper Collins.