ИИ

Aug. 20th, 2025 11:32 am
ny_quant: (Default)
[personal profile] ny_quant
Задача.
There is a pile of pebbles on the table. Two players, A and B, are playing a game whereby they take turns removing some pebbles from the table. The goal of the game is to take the last pebble from the table, i.e. the player who takes last pebble wins. The rules are: (1) obviously, player A cannot take all pebbles on his first move; (2) a player cannot take more stones than was taken by the other player before him. Assuming both players make their best moves, who wins if the there are 2025 pebbles on the table? What if there are 2026 pebbles? Who wins and what is the optimal strategy that the players should use?

Еще раз протестировал gpt-5-high против gemini-2.5-pro. Чтобы запутать противника, первый вопрос задал тривиальный, так чтобы любой человек мог на него ответить за секунду. ИИ на это приглашение не клюнули (не заметили shortcut) и сразу стали решать общую задачу. Тут gemini-2.5-pro залез в числа Фибоначчи и неведомые мне представления Зекендорфа и позорно провалился. Тогда как gpt дал совершенно правильный ответ, хотя и без объяснения как он туда попал.

Для сравнения, у меня на интервью кандидаты с PhD решили далеко не все и многим были нужны подсказки. Так что, если gpt не видел эту задачу раньше, то это довольно впечатляюще. Но gemini это какой-то хлам, по-моему. Сам я когда-то решил за несколько минут за рулем машины, а один умный коллега решил пока мы ходили за кофе.

UPDATE. Заодно попробовал claude-opus-4-20250514 и gpt-4.1-2025-04-14. Оба решили неправильно. Далеко еще канадским профессионалам до наших любителей! (с)

UPDATE2. deepseek-v3-0324 и grok-4-0709: deepseek моментально написал фигню, а грок за два часа не придумал ничего, наверное рассчитывает полное дерево вариантов. Я его сейчас выключу, а то неудобно как-то.

Date: 2025-08-20 03:44 pm (UTC)
From: [identity profile] ivanoff272.livejournal.com
при нечетной выигрывает 1-й снимая 1 камень, 2-й тоже может снимать по одному, так?
при четной вроде всегда выигрывает 2-й если делится на 4, и 1-й если не делится
Edited Date: 2025-08-20 03:48 pm (UTC)

Date: 2025-08-20 04:24 pm (UTC)
From: [identity profile] ny-quant.livejournal.com
> при нечетной выигрывает 1-й снимая 1 камень, 2-й тоже может снимать по одному, так?

2-й не может снимать больше одного по условию, значит должен снять ровно один и т.д. до конца. Я бы ожидал, что любая сущность, претендующая на высокое звание интеллекта это увидит сразу, как и вы, но этого не случилось.

> при четной вроде всегда выигрывает 2-й если делится на 4, и 1-й если не делится

Нет

Date: 2025-08-20 04:46 pm (UTC)
From: [identity profile] nameless--one.livejournal.com
-> если gpt не видел эту задачу раньше

а попробуйте задать эту же задачу в новом чате, но поменяв условия - в духе айфоны вместо камушков и корзина вместо стола

Date: 2025-08-20 04:48 pm (UTC)
From: [identity profile] ny-quant.livejournal.com
Это совершенно новая формулировка, я ее сам только что придумал спeциально чтобы их запутать. Я имел в виду, что гпт мог быть натренирован на похожих задачах и запомнил общий принцип их решения.

Также, см. update
Edited Date: 2025-08-20 04:49 pm (UTC)

Date: 2025-08-20 05:55 pm (UTC)
From: [identity profile] spamsink.livejournal.com

Грок думал 5 минут, но справился.

A position with remaining pebbles r and current maximum allowed to take m (where m m m is the number taken in the previous move, or unbounded except not all for the first move) is a losing position if and only if m < 2v2(r) m < 2^{v_2(r)} m < 2v2​(r), where v2(r) v_2(r) v2​(r) is the 2-adic valuation of r r r (the highest power of 2 dividing r r r, and v2(r)=0 v_2(r) = 0 v2​(r)=0 if r r r is odd). Otherwise, it is a winning position.


The optimal strategy for a player in a winning position is to take a number of pebbles t t t (with 1≤t≤m 1 \leq t \leq m 1≤t≤m for subsequent moves, or 1 ≤ t < r 1 \leq t < r 1 ≤ t < r for the first move) such that t<2v2(r−t) t < 2^{v_2(r - t)} t < 2v2​(r−t). Such a t always exists in a winning position. One systematic choice (that works when allowable) is t=2v2(r) t = 2^{v_2(r)} t=2v2​(r).


For 2025 pebbles (odd, so v2(2025)=0 v_2(2025) = 0 v2​(2025)=0), A takes 1 pebble, leaving a losing position. Thereafter, the maximum is 1, so both players always take 1 pebble each turn.


For 2026 pebbles (v2(2026)=1 v_2(2026) = 1 v2​(2026)=1), A takes 2 pebbles, leaving a losing position. Subsequent moves depend on choices, but the winner always leaves a losing position as defined above.

Edited Date: 2025-08-20 05:56 pm (UTC)

Date: 2025-08-20 08:15 pm (UTC)
From: [identity profile] ny-quant.livejournal.com
К сожалению, я не в состоянии читать текст в таком формате. Но вижу, что Грок нашел правильный shortcut для нечетного случая. Решил, что это так сработал copy-paste и тоже у него спросил в надежде на более ясный текст.

В моем случае, grok-4-0709 так никогда и не вернулся с ответом. Вот уже 2 часа думает.

Для 2026, A takes 2 pebbles, - это конечно выигрышный ход, но хотелось увидеть не это.

Date: 2025-08-20 08:28 pm (UTC)
From: [identity profile] ny-quant.livejournal.com
А вы не могли бы у него еще раз спросить про 2046, 2048 и 2050?

Date: 2025-08-20 08:56 pm (UTC)
From: [identity profile] spamsink.livejournal.com
Там безумным образом написано, что степени двойки — это проигрыш, а для других чётных чисел надо откусывать младшую единицу двоичного представления.

Date: 2025-08-20 08:58 pm (UTC)
From: [identity profile] ny-quant.livejournal.com
Cool! А какой у вас конкретно Грок?

Date: 2025-08-20 09:01 pm (UTC)
From: [identity profile] spamsink.livejournal.com
Обычный, бесплатный. Видимо, просто повезло. Я утром пробовал дома, вернусь вечером скажу номер версии.
Edited Date: 2025-08-20 09:07 pm (UTC)

Date: 2025-08-21 03:40 am (UTC)
From: [identity profile] spamsink.livejournal.com

Я не вижу, как определить точный номер версии. Сам он говорит, "Grok 4".


Date: 2025-08-20 07:44 pm (UTC)
From: [identity profile] ackforstpdcmnts.livejournal.com
Я эту задачу видел в Технике Молодежи, вроде (или Науке и Жизни), причем именно в качестве примера задачи для машинного обучения в домашних условиях: в качестве "машины" использовались N спичечных коробков, в котором количество спичек и было ходом оппонента, и как-то нужно было поощрять и наказывать его за правильные и неправильные ходы, добавляя или убирая спички (как именно — уже не помню).

Т.е. задача довольно известная, мне кажется.

Date: 2025-08-20 08:33 pm (UTC)
From: [identity profile] apo03.livejournal.com
Ради интереса дал решить сыну (7 класс), который ходит в кружок по олимпиадной математике. Решил за 5 минут оба варианта…

Date: 2025-08-20 08:47 pm (UTC)
From: [identity profile] ny-quant.livejournal.com
Общий случай тоже решил?

Date: 2025-08-21 09:00 am (UTC)
From: [identity profile] apo03.livejournal.com
Поначалу — нет. Сказал, что есть два варианта — четное и нечетное число камней, везде первый игрок выигрывает.

Я его попросил объяснить случай с 8 камнями. Тут он согласился, что выиграет второй. Оба пришли к гипотезе, что если камней 2 в степени k, то выигрывает второй игрок.

Минут через десять он предложил решение в случае, если число камней в начальной куче четно, но не равно степени двойки. Первый ход в этом случае — взять максимальное число двойки, которое входит в представление начального числа
Edited Date: 2025-08-21 11:56 am (UTC)

Date: 2025-08-20 09:18 pm (UTC)
From: [identity profile] 1benrinnes.livejournal.com
А может убрать все камни вторым ходом ?

Date: 2025-08-20 09:24 pm (UTC)
From: [identity profile] ny-quant.livejournal.com
Низя.

> (2) a player cannot take more stones than was taken by the other player before him.

Date: 2025-08-20 11:36 pm (UTC)
From: [identity profile] onmynav.livejournal.com
Гроки какие-то, жпты…были же Nimatron и Nimrod, теплые и ламповые
Edited Date: 2025-08-21 12:40 am (UTC)

Date: 2025-08-21 12:51 am (UTC)
From: [identity profile] onmynav.livejournal.com
Какая комбинаторика, его даже crayon eaters побили ))))
https://taskandpurpose.com/news/marines-ai-paul-scharre/
Хотелось бы это увидеть

Date: 2025-08-21 05:11 am (UTC)
From: [identity profile] snake-d-ha.livejournal.com
GPT-5-High это который за 200 баксов?

Date: 2025-08-21 02:45 pm (UTC)
From: [identity profile] ny-quant.livejournal.com
Не уверен. По-моему он пока что доступен только для research. В общем это сейчас как бы самая мякотка.

Date: 2025-08-21 09:03 pm (UTC)
From: [identity profile] snake-d-ha.livejournal.com

Интересно.
Разница сильно видна?

Я гоняю все пять моделей обычно по более прикладным задачам, но у меня High нет.

Date: 2025-08-22 05:27 am (UTC)
From: [identity profile] ny-quant.livejournal.com
См. апдейт. Разница с gpt-4.1-2025-04-14 огромна. Но это всего лишь одна задача.

Обычный бесплатный гпт 5 тоже справился, но объяснило неверно. Тогда я предложил сыграть и оно быстро перестроилось и нашло верную стратегию.

Date: 2025-08-22 08:36 pm (UTC)
From: [identity profile] snake-d-ha.livejournal.com

Я не совсем понимаю, что такое gpt-4.1-2025-04-14.

GPT-4o бесплатная от апреля?
GPT-4 o3 thinking от апреля?

У меня только что была чудесная иллюстрация, где бесплатная 5 неправильно решала линейное уравнение, а платная — правильно. :)

Date: 2025-08-22 09:22 pm (UTC)
From: [identity profile] ny-quant.livejournal.com
Тоже не знаю что это в точности за зверь.

Моя бесплатная решила правильно.

Date: 2025-08-21 10:01 pm (UTC)
From: [identity profile] svyatogorodski.livejournal.com
Симпатичная задачка. Я только не понял, чем вы путаете, дав для начала нечетное? ИМХО, вы подсказываете.

Date: 2025-08-21 11:25 pm (UTC)
From: [identity profile] ny-quant.livejournal.com

Я хотел, чтобы оно догадалось, по всё нечетные выигрываются одинаково, забирая один камень. Для человека это могла бы быть подсказка, но ИИ это не помогло.

Date: 2025-08-23 03:39 pm (UTC)
From: [identity profile] svyatogorodski.livejournal.com
Ну да, для человека подсказка, особенно в таком порядке. Вначале, выигрывает один, потом один проигрывает и в силу прошлого пункта надо дать четный — пробуем два и вуаля. Дальше довольно ясно.

Если бы решать в общем случае, то либо проверить эту стратегию маленьких решений, либо маленькие случаи — 2, 3, 4, 5... Первый вариант наверное доведет до полного решения побыстрее, хотя стопроцентно не скажу. Не берусь сказать, что бы выбрал если б решал без ваших посдказок.

Profile

ny_quant: (Default)
ny_quant

December 2025

S M T W T F S
 12 34 56
7 89 10 111213
14 151617 181920
21 2223 24252627
28 29 3031   

Most Popular Tags

Style Credit

Expand Cut Tags

No cut tags
Page generated Dec. 31st, 2025 09:26 pm
Powered by Dreamwidth Studios