ny_quant: (Default)
[personal profile] ny_quant

using the formal verification language Lean, 8 of which within the exam time


По ссылке приводятся все решения. Впечатляет.

Из комментариев на LinkedIn (дать ссылку не получается):

Looking at the GitHub repo, problem B5 took 354 minutes and 18M tokens. B6 took 494 minutes and 21M tokens.

Интересно, каких ресурсов потребовало бы сегодня решение задачи, которая занимает у хорошего профессионального математика, скажем, месяц. И как далеко мы до того как ИИ будет делать это быстрее. Возможно, не так уж и далеко, если до этой стадии можно добраться собирая относительно низко висящие плоды. А может быть туда ведет такая экспонента, что всей энергии человечества не хватит, чтобы обучить такую модель. Или может быть где-то впереди все же есть твердая стена, которую в лоб не пробить. Кто знает.

Date: 2026-01-15 05:33 pm (UTC)
juan_gandhi: (Default)
From: [personal profile] juan_gandhi
Wow, this is impressive. I couldn't believe. And Lean seems to be the right language to formulate all this.

Date: 2026-01-15 05:59 pm (UTC)
lemberger: (Default)
From: [personal profile] lemberger
Как всегда в таких случаях, непонятно, что делала машина, а что люди.

Задаче B2 вообще нечего делать на олимпиаде - это тривиальное студенческое упражнение. Про задачу B1 авторы статьи абсолютно нелепо бахвалятся: естественно, если нудное геометрическое рассуждение описывать словами, то без чертежа его фиг поймешь. И так далее.

У меня есть с этим делом некоторый опыт: я наблюдал вживую, как ИИ используют для решения математических задач. Банальны упражнения оно делает. Чуть менее банальные - гонит белиберду.

Date: 2026-01-15 06:09 pm (UTC)
svyatogorodski: (Default)
From: [personal profile] svyatogorodski
Я ему недавно дал упражнение по теории полей классов (неожиданно возникшее у меня в реале). Гнал пургу и гпт и грок. Пишешь ему -- пурга, неверно уже для умеренного ветвления, да-да ты прав, а вот так? Опять пурга. Да, да а так -- блин, опять умеренное ветвление не проходит. В конце спросил, аможет ли это быть Х (тоже неверно, но очень хотелось) -- гпт сказал да, грок -- нет, оба дали липовое обоснование.

Коллеги говорят, что сразу он (почти) никогда ничего толкового не отвечает. Но если много раз переспросить, объяснить, и т.д. то иногда может подкинуть интересную идею. ЭЖто все что можно пока выловить на серьезном уровне (не низовая комбинаторика, алгебра и т.п.)

Date: 2026-01-15 08:40 pm (UTC)
svyatogorodski: (Default)
From: [personal profile] svyatogorodski
Думаю, что простым смертным понять. Я как раз в IAS слушал лекцию про какое-от число результатов доказанных ИИ, там в одной статье и Тау был в соавторах (И Элленберг из известных людей). В общем-то все это было про довольно простые комбинаторные задачи. Деталей не помню, но что-то от Эрдоша, что-то еще откуда-то. И от ИИ там требовали не прям таки гениальныйход найти, а улучшить известную оценку (типа, (с потолка говорю) в задаче покрытия чего-то чем-то лучшая известная оценка 3n^2-5n+27 а он улучшил ее на константу, или линейный фактор или еще что). Ему скормили кучу таких (может сложных, но элементарных и вряд ли хорошо мотивированных) задач, где-то он улучшил, где-то нашел в литературе лучшую известную, где-то не нашел/ухудшил. Короче, это скорее тестирование нового средства, а не прям "Тау решает то, что 20 лет хотел но не мог"...

Date: 2026-01-15 09:52 pm (UTC)
svyatogorodski: (Default)
From: [personal profile] svyatogorodski
На 10 лет я б бутылку поставил. На данный момент он сам не знает, решил он или нет. Как студент, кторый приходит на экзамен, повторяет что-то что запомнил, но без понятия то он повторяет, или не то (и кстати большой филисофский вопрос, что надо ставить, если он повторяет правильно, но ясно, что не понимает...)

Первый шаг будет формализовать доказательство хоть в том же lean. Дальше прочитать, что люди печатали и формализовать или найти ошибки, и только потом можно ждать что он что-то там начнет делать сам, а не на уровне "где-то нашел вам идею", а дальше вы думайте. Кстати уже это может сделать переворот в работе, когда печатать будут только формализованные доказательства, а доводить будет ИИ, но и до этого пока как до луны. Хотя тут возможно у ИИ есть шанс в среднесрочной перспективе.
Edited Date: 2026-01-15 09:53 pm (UTC)

Profile

ny_quant: (Default)
ny_quant

January 2026

S M T W T F S
    123
45 6 7 8 9 10
11 12 13 14 151617
18192021222324
25262728293031

Most Popular Tags

Style Credit

Expand Cut Tags

No cut tags
Page generated Jan. 15th, 2026 11:40 pm
Powered by Dreamwidth Studios