Локальная CLI-арена для шахматных турниров между LLM-провайдерами. Проект проверяет, как модели держат правила шахмат, выбирают легальные ходы, переживают rate limit и меняются по failover-цепочке.
python arena_v3_API_new_versu.py- основная API-арена: партии, failover, ELO команд и моделей, continuous tournaments.python arena_v3_API.py- старая API-версия.python arena_v3.py- ручная human-in-the-loop версия.keys.py- безопасная загрузка и сохранение API-ключей вkeys_local.json.scout.py- проверка доступности моделей изscout_models.json.analysis.py- анализ PGN через Stockfish.stockfish/- локальный Stockfish и его исходники/документация.tournament_data*/- результаты запусков, PGN, JSON-аналитика и hallucination logs.
python -m pip install -r requirements.txtДля тестов:
python -m pip install -r requirements-dev.txt
python -m pytestpython "python arena_v3_API_new_versu.py"При первом запуске программа спросит API-ключи. Они сохраняются в keys_local.json, который должен оставаться локальным и не попадать в репозиторий.
start- начать или продолжить турнир.test- проверить подключение к моделям.top- таблица текущего турнира.elo- ELO моделей.teamelo- ELO команд.teams- цепочки моделей и cooldown.logs- последние нелегальные ходы.mode,submode,ormode- режим игры и выбора моделей.key- редактировать ключи.delays- изменить задержки и cooldown.reset- удалитьtournament_dataи начать заново.
- Не храните реальные ключи в
keys.py. - Не коммитьте
keys_local.jsonиscout_keys.json. - Не публикуйте
tournament_data*, если в логах могут быть приватные prompt/ответы или внутренние имена моделей.
- Это исследовательский CLI-инструмент, не production-сервис.
- Результаты зависят от доступности API, лимитов провайдеров и текущих версий моделей.
- Для строгого бенчмарка фиксируйте дату, список моделей, режим, prompt, seed/температуру и полный state.