Рейтинги шашечных программ

Главная Форумы Шашечные программы Шашечные программы Рейтинги шашечных программ

Просмотр 15 сообщений - с 1 по 15 (из 72 всего)
  • Автор
    Сообщения
  • #340311
    Kallisto
    Участник

    Я иногда запускаю матчи между шашечными движками. Из результатов можно составить рейтинг-лист (по минуте на партию):


    Place Name Rating Perf. Av.opp Games

    1. Kallisto 1 2450 0.685022 2293 227
    2. KestoG 1.3 2383 0.60093 2297 753
    3. KestoG 1.2 2307 0.511905 2297 714
    4. MiuMiu 2299 0.456467 2336 1183
    5. Skifi 0.03 2293 0.427954 2354 1041

    Если это кому-нибудь интересно, то буду здесь выкладывать обновления рейтингов.

    В дальнейшем можно будет попробовать сделать рейтинг для 5 минут на партию. Рейтинги вероятно очень сильно сожмутся.

    #370644
    Alkand
    Участник

    Конечно интересно.
    Кстати, выкладываю старенький рейтинг программ, что Владимир Шулюпов сделал. Может он время найдет его обновить ? Добавить Кубки сайта и матчи Тундры с ПЛЮСОМ и Каллисто.

    #370645
    Kallisto
    Участник

    Еще было бы интересно выравнять рейтинги программ с человеческими. Может кто-то, имеющий рейтинг, играл с каким-нибудь движком довольно много?

    Или может найдется человек с рейтингом, который сыграет большой матч в леталки против «Каллисто 1». Я предполагаю она играет где-то между кандидатом и мастером.

    #370646
    letas
    Участник

    Будет оболочка для движков типа шахматной «Арены».Найдутся желающие проводить матчи между движками.Да и движков скорее всего прибавиться.Хотя и то что Вы уже успели сделать является огромным вкладом в развитие шашек.

    #370647
    NS
    Участник

    Конечно интересно.
    Кстати, выкладываю старенький рейтинг программ, что Владимир Шулюпов сделал. Может он время найдет его обновить ? Добавить Кубки сайта и матчи Тундры с ПЛЮСОМ и Каллисто.

    Это не рейтинг, а издевательство над здравым смыслом.
    Кто-же так считает рейтинги программ?

    #370648
    Alkand
    Участник

    NS прошу вас не переходить за рамки. Поверьте мне, Владимир в рейтингах (и в шашках) понимает ну никак не меньше вашего.
    Ну, если вы занимаетесь обсчетом рейтингов и игрой в шашки не более 15 лет 😳

    #370649
    NS
    Участник

    Вы посмотрите на разницу между сильнейшей и слабейшей программой!
    Формула Эло была придумана для простого расчета силы в условиях возможного её изменения во времени.
    Пересчет после каждой партии/турнира через отклонение от ожидаемого результата.

    1. Сила конкретной версии программы не меняется во времени.
    2. Простой расчет в данном случае не нужен.

    Что нужно для программ? Расчет наиболее достоверного рейтинга
    Который считается методом наибольшего правдоподобия.

    Расчет рейтингов программ в русских шашках застрял в каменном веке.

    Поищите что такое BayesElo и EloStat, и посмотрите как нужно считать рейтинги программ

    Возьмете любые крупные рейтинг-листы шахматных программ, и посмотрите как расчитан рейтинг.

    Когда программа сыгравшая только в одном турнире, и набравшая 2 очка из 12-ти возможных отстает от лидера рейтинг-листа меньше чем на сотню пунктов Эло — это даже не смешно!

    #370650
    Kallisto
    Участник

    На самом деле. Ведь достоверность такого рейтинга просто никакая.
    По такому малому количеству партий никакой способ составления рейтингов не поможет.

    Тут нужны тысячи (в крайнем случае сотни) партий. И применять методы расчета человеческих рейтингов здесь нет необходимости.

    #370651
    NS
    Участник

    Да, но нормальные методы дадут цифры хоть немного, но похожие на правду. Хотя конечно доверительный интервал по 12 париям очень велик, но в приведенном случае рейтинг посчитанный русским шашкам просто вне доверительного интервала.

    #370652
    Alkand
    Участник

    На самом деле. Ведь достоверность такого рейтинга просто никакая.
    По такому малому количеству партий никакой способ составления рейтингов не поможет.

    Тут нужны тысячи (в крайнем случае сотни) партий. И применять методы расчета человеческих рейтингов здесь нет необходимости.

    Если есть желание, можно ввести неофициальный «рейтинг программ сайта». Даже два. Один посчитать по итогам турниров, пусть их и было немного. Но там каждая программа получит свой рейтинг.
    А второй можете считать по итогам матчей, который проводите вы и другие энтузиасты.

    #370653
    Kallisto
    Участник

    но в приведенном случае рейтинг посчитанный русским шашкам просто вне доверительного интервала.

    А вот это ты зря. Доверительный интервал можно посчитать даже для такого метода. Нижняя граница будет несколько сотен пунктов.

    #370654
    NS
    Участник

    А вот это ты зря. Доверительный интервал можно посчитать даже для такого метода. Нижняя граница будет несколько сотен пунктов.

    Доверительный интервал можно посчитать для любого метода :)
    Только в данном случае это будет [-много;+0]

    приведенный рейтинг выйдет за доверительные 95% интервалы ЭлоСтата.

    Что мешает скинуть все партии в .pdn и посчитать рейтинг ЭлоСтатом?

    #370655
    Kallisto
    Участник

    Один посчитать по итогам турниров, пусть их и было немного. Но там каждая программа получит свой рейтинг.

    OK. Но доверительные интервалы будут уж очень большие.
    В шахматах еще ни у кого не появлялась идея посчитать рейтинг по результатам официальных турниров :)

    #370656
    Kallisto
    Участник

    Что мешает скинуть все партии в .pdn и посчитать рейтинг ЭлоСтатом?

    Глючный он. Я уж лучше своей программкой посчитаю.
    Но тут дело в том, что в турнирах выступали разные версии программ. Так что мы по-любому хорошего рейтинга не получим.

    #370657
    alemo
    Участник

    Но тут дело в том, что в турнирах выступали разные версии программ. Так что мы по-любому хорошего рейтинга не получим.

    Если я правильно понимаю — не только разные версии программ. Из того, что я тут читал на форуме, у меня сложилось апечптление, что некоторые матчи носили тестовый характер.

    Сделал изменения, сыграл товарищеский матч с другой программой, проверился. Или проверили влияние ЭБ 😆 — одной программе дали 6-ку, а другой 7-ку. Ну и так далее. Если будут считаться рейтинги по результатам таких матчей — народ будет бояться играть.

    Или я ошибаюсь ?

    А кстати, зачем вообще нужны все эти рейтигни, если и турниров-матчей, и партий, с гулькин нос ? 😆

    Не хотите ли заодно ввести отдельные рейтинги на «5 секунд на ход», «10 секунд на ход» 😆 Результаты могут быть о-о-о-чень разные.

    АЛЕМО

Просмотр 15 сообщений - с 1 по 15 (из 72 всего)
  • Для ответа в этой теме необходимо авторизоваться.