Entry tags:
AI Axiom solved all Putnam competition problems
using the formal verification language Lean, 8 of which within the exam time
По ссылке приводятся все решения. Впечатляет.
Из комментариев на LinkedIn (дать ссылку не получается):
Looking at the GitHub repo, problem B5 took 354 minutes and 18M tokens. B6 took 494 minutes and 21M tokens.
Интересно, каких ресурсов потребовало бы сегодня решение задачи, которая занимает у хорошего профессионального математика, скажем, месяц. И как далеко мы до того как ИИ будет делать это быстрее. Возможно, не так уж и далеко, если до этой стадии можно добраться собирая относительно низко висящие плоды. А может быть туда ведет такая экспонента, что всей энергии человечества не хватит, чтобы обучить такую модель. Или может быть где-то впереди все же есть твердая стена, которую в лоб не пробить. Кто знает.
no subject
no subject
Задаче B2 вообще нечего делать на олимпиаде - это тривиальное студенческое упражнение. Про задачу B1 авторы статьи абсолютно нелепо бахвалятся: естественно, если нудное геометрическое рассуждение описывать словами, то без чертежа его фиг поймешь. И так далее.
У меня есть с этим делом некоторый опыт: я наблюдал вживую, как ИИ используют для решения математических задач. Банальны упражнения оно делает. Чуть менее банальные - гонит белиберду.
no subject
Тем не менее, я пользовался chatgpt, grok and claude, а не эту систему. Вы наверное тоже. Прогресс не стоит на месте.
no subject
Сам я, кстати, никаким ИИ ни разу не пользовался.
no subject
Коллеги говорят, что сразу он (почти) никогда ничего толкового не отвечает. Но если много раз переспросить, объяснить, и т.д. то иногда может подкинуть интересную идею. ЭЖто все что можно пока выловить на серьезном уровне (не низовая комбинаторика, алгебра и т.п.)
no subject
Кто знает, может быть через пару итераций эта система станет полезной для профессионалов.
no subject
no subject
no subject
Первый шаг будет формализовать доказательство хоть в том же lean. Дальше прочитать, что люди печатали и формализовать или найти ошибки, и только потом можно ждать что он что-то там начнет делать сам, а не на уровне "где-то нашел вам идею", а дальше вы думайте. Кстати уже это может сделать переворот в работе, когда печатать будут только формализованные доказательства, а доводить будет ИИ, но и до этого пока как до луны. Хотя тут возможно у ИИ есть шанс в среднесрочной перспективе.