ny_quant

Начало, продолжение.

По мере того как я делал задачу более реалистичной а не учебно-игрушечной, техзадание усложнялось и соответственно усложнялся и увеличивался в размере предлагаемый мне код. При этом произошли несколько крайне неприятных вещей.

1.Время работы над каждым следующим этапом возросло экспоненциально. В некоторых случаях, чатгпт уходил на несколько часов, при этом на странице было написано, что оно думало типа 3 мин 22 сек и дальше мигающая черная точка на час, два или четыре. (Причем, не только для написания нового кода или его редактирования, но и для объяснения происходящего тоже.)

Возможно, собственно код производится каким-то отдельным движком, черт его знает. Когда я спросил почему так долго, оно сказало типа а чего ж ты ожидаешь когда мне надо работать с сотнями строк кода. Побочным эффектом этого явления стали серьезное замедление процесса, и (что хуже) потеря мной контроля за происходящим (мне трудно следить за всеми деталями столь длинного кода, особенно на языке, в котором я не эксперт), и что совсем плохо - потеря концентрации. Как знает каждый программист, это занятие требует глубокого погружения, а тут мне поневоле приходилось отвлекаться.

2.Стало больше ошибок и - что ещё хуже - стало всё сложнее их исправлять. Мало того, что каждая итерация занимала часы, так еще и предлагаемое решение как правило оказывалось неверным. Так, что каждый шаг вперед давался с большим трудом и занимал уже не минуты как в начале, а иной раз по паре дней.

3.Более того, когда мы детально дебагали причины того, что на выдаче такая чушь, оказалось, что некоторые из моих инструкций были неправильно поняты, а я этого сразу не заметил. Например, слово “after” в смысле даты было закодировано как «>=» вместо «>» (см. потеря концентрации и контроля). Из всего этого мне совершенно очевидно, что никакие «агентские» решения в б-м нетривиальных ситуациях пока что не катят. Или м.б. для этого нужен не чатгпт, а какой-то другой ИИ. И, конечно, надо внимательнее следить за базаром.

4.Огромной ошибкой оказалась работа с глобальными переменными. Сам я этого избегаю как черт ладана еще со студенческих времен, но тут попустил и расплатился. Чатгпт, в процессе починки багов, незаметно переименовывал некоторые переменные, причем совершенно забывал как и где они используются в других ячейках, так что эти ошибки мне пришлось искать и чинить самому. Возможно, такой стиль программирования естествен при работе с Jupyter notebooks, но мне следовало это запретить с самого начала.

Мои усилия по тщательной формулировке заданий и по разделению задачи на этапы оказались недостаточными по обоим пунктам. Как только я получил первую выдачу строк на 400, надо было задуматься как разбить задание на более мелкие кусочки. Но это был тот этап когда всё шло гладко, и я думал, что так будет и дальше. Как я ошибся, как наказан!

Уже в самом конце, неожиданно пришел мессидж "You've reached the maximum length for this conversation, but you can keep talking by starting a new chat." Новый чат отказался читать старый. Пришлось потратить кучу времени (часа 2.5, не меньше) на то чтобы написать отдельный связный текст, чтобы заново объяснить что мы пытаемся сделать. Но прочитать весь промпт целиком вместе с кодом на 1000 строк чатгпт первые два раза не смог: после 15 минут размышлений - Error in message stream. Но с третьего раз смог, и даже сумел верно ответить на контрольные вопросы и заметить мои ошибки. Видимо, где-то здесь лежит предел его сегодняшних возможностей. С учетом экспоненты, промышленное использование на реально больших проектах пока что наверное не светит.

That said, надо будет все еще проверить но результаты получились просто потрясающие.

Threaded | Top-Level Comments Only

From:

mi-b.livejournal.com

skills issue :) The same model inside GitHub Copilot or Cursor can handle pretty big projects.

From:

ny-quant.livejournal.com

Whose skills? Чтобы прочитать с нуля техзадание и код никаких особых skills не требуется. Что бы я ни напорол до и после.

From:

mi-b.livejournal.com

Ну, история примерно как про то, как некто попробовал сделать таблицу с вычислениями в Ворде, а не Экселе, выяснил, что это неудобно, а больше 40 колонок и вовсе непросто, и заключил, что у него плохая материнская плата в компьютере.

From:

ny-quant.livejournal.com

Не убедительно.

From:

ormuz.livejournal.com

я обычно прошу его держать в синхронизации три документа

1) общий дизайн с общими детальными требованиями
2) общий список задач, которые мы запланировали
3) контекст и все решения которые мы делали в процессе разработки

и мы с ним не пишем/меняем код, пока не заапрувим изменения во всех трех документах. Это еще помогает с контекстным окном —
можно его заставить прочитать документы, и оно будет готово.

From:

vladimir-w.livejournal.com

Claude в программировании лучше, чем chatgtp. Говорю как программист. Хотя тоже не идеален, конечно

From:

polkovnik-isaev.livejournal.com

Я, как правило, пользуюсь GPT, но вчера мне Gemini сильно помог с ну очень специфической рабочей проблемой. Он с полуслова, вернее со скриншота, понял задачу и объяснил варианты ее решения, тогда как GPT не понял совсем и ушел в какие-то дебри. Теперь подумываю переметнуться к Гуглу.

From:

smirnfil.livejournal.com

Агентный режим резко повышает лимит на котом начинаются подобные проблемы.

From:

smirnfil.livejournal.com

Зависит, я регулярно переключаю — в агентных режимах клод лучше для больших задач, но вот очень маленькие изменения gpt 5-ка часто лучше подхватывает.

From:

ny-quant.livejournal.com

Я просто очень сильно подозреваю, что этот агент мне посчитает не то что мне нужно и я никогда не пойму что пошло не так. Я уже и так, даже в интерактивном режиме, затрахался хватать его за руку на вранье.

From:

smirnfil.livejournal.com

Агентный режим это просто многоразовое выполнение заданий с использованием тулов. Он вместо того, чтобы сразу выдавать код сначала находит контекст, состовляет план и исполняет его. С более подробным анализом существующего и перепроверкой — а точно ли получилось то, что надо. Он регулярно сам себя на вранье ловит. Вот какие-нибудь штуки вроде имен существующих глобальных переменных.
Он заметно повышает точность. Я не говорю, что надо бросать все и использовать агенты, но они были созданны именно для решения проблем указаных в посте.

From:

stumari.livejournal.com

разделяю и сочувствую
один вопрос, если можно, у вас платный Чат или бесплатный?
(у меня платный, и до лимита я тоже доходил, правда, не в программистском случае)

From:

ny-quant.livejournal.com

Платный. На бесплатном я долго не протянул.

From:

stumari.livejournal.com

аналогично
врет (или "галлюцинирует") это моя самая большая проблема с ним, особенно когда самоуверенно, "вот это точно будет работать!"
с ожиданием у нас пока проблемы не было, но мы всегда спрашиваем маленькие куски, не все программу, а программу пишем сами (точнее, моя жена) на Свифте
сильно помогает, но да, иногда предлагает 10 решений, и ни одно не работает, а иногда прямые ошибки бывают...

From:

yucca.livejournal.com

Странно, он мне писал программы на несколько сот строк, не особо напрягаясь. Правда, в конце концов я предпочла Клод. Но ошибки делал ужасно раздражающие.

From:

ny-quant.livejournal.com

Если одноразовое выполнение приводит к ошибке, скажем, 10%, то многоразовое будет ошибочно на 100%.

Даже если вдруг всё получится правильно, убедиться в этом будет труднее, чем пошаговое решение.

From:

ny-quant.livejournal.com

Подозреваю, что у меня более сложная логика. Других гипотез не видно.

From:

ny-quant.livejournal.com

А кто делает 2 ?

From:

ny-quant.livejournal.com

У меня оно разаговаривает одновременно высокомерно, самоуверенно и льстиво. Вот последний перл:

This is the more subtle and interesting bug, and your evidence pins it down beautifully.

Edited Date: 2025-12-12 05:19 pm (UTC)

From:

stumari.livejournal.com

о, лесть его, это да :)

From:

ormuz.livejournal.com

оно (c моей помощью):
идея в том, чтоб не давать ему делать большие таски — оно всегда должно разбивать на мелкие, делать подобающую запись в TODO документе, и спрашивать когда мы начнем делать такую-то задачу, и не начинало пока не будет четко понятно, что мы хотим от этой таски и что точно не хотим.

У Курсора (например), это прямо в интерфейсе реализовано — plan mode.