Задача.
There is a pile of pebbles on the table. Two players, A and B, are playing a game whereby they take turns removing some pebbles from the table. The goal of the game is to take the last pebble from the table, i.e. the player who takes last pebble wins. The rules are: (1) obviously, player A cannot take all pebbles on his first move; (2) a player cannot take more stones than was taken by the other player before him. Assuming both players make their best moves, who wins if the there are 2025 pebbles on the table? What if there are 2026 pebbles? Who wins and what is the optimal strategy that the players should use?
Еще раз протестировал gpt-5-high против gemini-2.5-pro. Чтобы запутать противника, первый вопрос задал тривиальный, так чтобы любой человек мог на него ответить за секунду. ИИ на это приглашение не клюнули (не заметили shortcut) и сразу стали решать общую задачу. Тут gemini-2.5-pro залез в числа Фибоначчи и неведомые мне представления Зекендорфа и позорно провалился. Тогда как gpt дал совершенно правильный ответ, хотя и без объяснения как он туда попал.
Для сравнения, у меня на интервью кандидаты с PhD решили далеко не все и многим были нужны подсказки. Так что, если gpt не видел эту задачу раньше, то это довольно впечатляюще. Но gemini это какой-то хлам, по-моему. Сам я когда-то решил за несколько минут за рулем машины, а один умный коллега решил пока мы ходили за кофе.
UPDATE. Заодно попробовал claude-opus-4-20250514 и gpt-4.1-2025-04-14. Оба решили неправильно. Далеко еще канадским профессионалам до наших любителей! (с)
UPDATE2. deepseek-v3-0324 и grok-4-0709: deepseek моментально написал фигню, а грок за два часа не придумал ничего, наверное рассчитывает полное дерево вариантов. Я его сейчас выключу, а то неудобно как-то.
There is a pile of pebbles on the table. Two players, A and B, are playing a game whereby they take turns removing some pebbles from the table. The goal of the game is to take the last pebble from the table, i.e. the player who takes last pebble wins. The rules are: (1) obviously, player A cannot take all pebbles on his first move; (2) a player cannot take more stones than was taken by the other player before him. Assuming both players make their best moves, who wins if the there are 2025 pebbles on the table? What if there are 2026 pebbles? Who wins and what is the optimal strategy that the players should use?
Еще раз протестировал gpt-5-high против gemini-2.5-pro. Чтобы запутать противника, первый вопрос задал тривиальный, так чтобы любой человек мог на него ответить за секунду. ИИ на это приглашение не клюнули (не заметили shortcut) и сразу стали решать общую задачу. Тут gemini-2.5-pro залез в числа Фибоначчи и неведомые мне представления Зекендорфа и позорно провалился. Тогда как gpt дал совершенно правильный ответ, хотя и без объяснения как он туда попал.
Для сравнения, у меня на интервью кандидаты с PhD решили далеко не все и многим были нужны подсказки. Так что, если gpt не видел эту задачу раньше, то это довольно впечатляюще. Но gemini это какой-то хлам, по-моему. Сам я когда-то решил за несколько минут за рулем машины, а один умный коллега решил пока мы ходили за кофе.
UPDATE. Заодно попробовал claude-opus-4-20250514 и gpt-4.1-2025-04-14. Оба решили неправильно. Далеко еще канадским профессионалам до наших любителей! (с)
UPDATE2. deepseek-v3-0324 и grok-4-0709: deepseek моментально написал фигню, а грок за два часа не придумал ничего, наверное рассчитывает полное дерево вариантов. Я его сейчас выключу, а то неудобно как-то.
no subject
Date: 2025-08-20 03:44 pm (UTC)при четной вроде всегда выигрывает 2-й если делится на 4, и 1-й если не делится
no subject
Date: 2025-08-20 04:24 pm (UTC)2-й не может снимать больше одного по условию, значит должен снять ровно один и т.д. до конца. Я бы ожидал, что любая сущность, претендующая на высокое звание интеллекта это увидит сразу, как и вы, но этого не случилось.
> при четной вроде всегда выигрывает 2-й если делится на 4, и 1-й если не делится
Нет
no subject
Date: 2025-08-20 04:46 pm (UTC)а попробуйте задать эту же задачу в новом чате, но поменяв условия - в духе айфоны вместо камушков и корзина вместо стола
no subject
Date: 2025-08-20 04:48 pm (UTC)Также, см. update
no subject
Date: 2025-08-20 05:55 pm (UTC)Грок думал 5 минут, но справился.
A position with remaining pebbles r and current maximum allowed to take m (where m m m is the number taken in the previous move, or unbounded except not all for the first move) is a losing position if and only if m < 2v2(r) m < 2^{v_2(r)} m < 2v2(r), where v2(r) v_2(r) v2(r) is the 2-adic valuation of r r r (the highest power of 2 dividing r r r, and v2(r)=0 v_2(r) = 0 v2(r)=0 if r r r is odd). Otherwise, it is a winning position.
The optimal strategy for a player in a winning position is to take a number of pebbles t t t (with 1≤t≤m 1 \leq t \leq m 1≤t≤m for subsequent moves, or 1 ≤ t < r 1 \leq t < r 1 ≤ t < r for the first move) such that t<2v2(r−t) t < 2^{v_2(r - t)} t < 2v2(r−t). Such a t always exists in a winning position. One systematic choice (that works when allowable) is t=2v2(r) t = 2^{v_2(r)} t=2v2(r).
For 2025 pebbles (odd, so v2(2025)=0 v_2(2025) = 0 v2(2025)=0), A takes 1 pebble, leaving a losing position. Thereafter, the maximum is 1, so both players always take 1 pebble each turn.
For 2026 pebbles (v2(2026)=1 v_2(2026) = 1 v2(2026)=1), A takes 2 pebbles, leaving a losing position. Subsequent moves depend on choices, but the winner always leaves a losing position as defined above.
no subject
Date: 2025-08-20 08:15 pm (UTC)В моем случае, grok-4-0709 так никогда и не вернулся с ответом. Вот уже 2 часа думает.
Для 2026, A takes 2 pebbles, - это конечно выигрышный ход, но хотелось увидеть не это.
no subject
Date: 2025-08-20 08:28 pm (UTC)no subject
Date: 2025-08-20 08:56 pm (UTC)no subject
Date: 2025-08-20 08:58 pm (UTC)no subject
Date: 2025-08-20 09:01 pm (UTC)no subject
Date: 2025-08-21 03:40 am (UTC)Я не вижу, как определить точный номер версии. Сам он говорит, "Grok 4".
no subject
Date: 2025-08-20 07:44 pm (UTC)Т.е. задача довольно известная, мне кажется.
no subject
Date: 2025-08-20 08:33 pm (UTC)no subject
Date: 2025-08-20 08:47 pm (UTC)no subject
Date: 2025-08-21 09:00 am (UTC)Я его попросил объяснить случай с 8 камнями. Тут он согласился, что выиграет второй. Оба пришли к гипотезе, что если камней 2 в степени k, то выигрывает второй игрок.
Минут через десять он предложил решение в случае, если число камней в начальной куче четно, но не равно степени двойки. Первый ход в этом случае — взять максимальное число двойки, которое входит в представление начального числа
no subject
Date: 2025-08-20 09:18 pm (UTC)no subject
Date: 2025-08-20 09:24 pm (UTC)> (2) a player cannot take more stones than was taken by the other player before him.
no subject
Date: 2025-08-20 11:36 pm (UTC)no subject
Date: 2025-08-21 12:51 am (UTC)https://taskandpurpose.com/news/marines-ai-paul-scharre/
Хотелось бы это увидеть
no subject
Date: 2025-08-21 05:11 am (UTC)no subject
Date: 2025-08-21 02:45 pm (UTC)no subject
Date: 2025-08-21 09:03 pm (UTC)Интересно.
Разница сильно видна?
Я гоняю все пять моделей обычно по более прикладным задачам, но у меня High нет.
no subject
Date: 2025-08-22 05:27 am (UTC)Обычный бесплатный гпт 5 тоже справился, но объяснило неверно. Тогда я предложил сыграть и оно быстро перестроилось и нашло верную стратегию.
no subject
Date: 2025-08-22 08:36 pm (UTC)Я не совсем понимаю, что такое gpt-4.1-2025-04-14.
GPT-4o бесплатная от апреля?
GPT-4 o3 thinking от апреля?
У меня только что была чудесная иллюстрация, где бесплатная 5 неправильно решала линейное уравнение, а платная — правильно. :)
no subject
Date: 2025-08-22 09:22 pm (UTC)Моя бесплатная решила правильно.
no subject
Date: 2025-08-21 10:01 pm (UTC)no subject
Date: 2025-08-21 11:25 pm (UTC)Я хотел, чтобы оно догадалось, по всё нечетные выигрываются одинаково, забирая один камень. Для человека это могла бы быть подсказка, но ИИ это не помогло.
no subject
Date: 2025-08-23 03:39 pm (UTC)Если бы решать в общем случае, то либо проверить эту стратегию маленьких решений, либо маленькие случаи — 2, 3, 4, 5... Первый вариант наверное доведет до полного решения побыстрее, хотя стопроцентно не скажу. Не берусь сказать, что бы выбрал если б решал без ваших посдказок.