ny_quant: (Default)
[personal profile] ny_quant
Начало, продолжение.

По мере того как я делал задачу более реалистичной а не учебно-игрушечной, техзадание усложнялось и соответственно усложнялся и увеличивался в размере предлагаемый мне код. При этом произошли несколько крайне неприятных вещей.

1.Время работы над каждым следующим этапом возросло экспоненциально. В некоторых случаях, чатгпт уходил на несколько часов, при этом на странице было написано, что оно думало типа 3 мин 22 сек и дальше мигающая черная точка на час, два или четыре. (Причем, не только для написания нового кода или его редактирования, но и для объяснения происходящего тоже.)

Возможно, собственно код производится каким-то отдельным движком, черт его знает. Когда я спросил почему так долго, оно сказало типа а чего ж ты ожидаешь когда мне надо работать с сотнями строк кода. Побочным эффектом этого явления стали серьезное замедление процесса, и (что хуже) потеря мной контроля за происходящим (мне трудно следить за всеми деталями столь длинного кода, особенно на языке, в котором я не эксперт), и что совсем плохо - потеря концентрации. Как знает каждый программист, это занятие требует глубокого погружения, а тут мне поневоле приходилось отвлекаться.

2.Стало больше ошибок и - что ещё хуже - стало всё сложнее их исправлять. Мало того, что каждая итерация занимала часы, так еще и предлагаемое решение как правило оказывалось неверным. Так, что каждый шаг вперед давался с большим трудом и занимал уже не минуты как в начале, а иной раз по паре дней.

3.Более того, когда мы детально дебагали причины того, что на выдаче такая чушь, оказалось, что некоторые из моих инструкций были неправильно поняты, а я этого сразу не заметил. Например, слово “after” в смысле даты было закодировано как «>=» вместо «>» (см. потеря концентрации и контроля). Из всего этого мне совершенно очевидно, что никакие «агентские» решения в б-м нетривиальных ситуациях пока что не катят. Или м.б. для этого нужен не чатгпт, а какой-то другой ИИ. И, конечно, надо внимательнее следить за базаром.

4.Огромной ошибкой оказалась работа с глобальными переменными. Сам я этого избегаю как черт ладана еще со студенческих времен, но тут попустил и расплатился. Чатгпт, в процессе починки багов, незаметно переименовывал некоторые переменные, причем совершенно забывал как и где они используются в других ячейках, так что эти ошибки мне пришлось искать и чинить самому. Возможно, такой стиль программирования естествен при работе с Jupyter notebooks, но мне следовало это запретить с самого начала.

Мои усилия по тщательной формулировке заданий и по разделению задачи на этапы оказались недостаточными по обоим пунктам. Как только я получил первую выдачу строк на 400, надо было задуматься как разбить задание на более мелкие кусочки. Но это был тот этап когда всё шло гладко, и я думал, что так будет и дальше. Как я ошибся, как наказан!

Уже в самом конце, неожиданно пришел мессидж "You've reached the maximum length for this conversation, but you can keep talking by starting a new chat." Новый чат отказался читать старый. Пришлось потратить кучу времени (часа 2.5, не меньше) на то чтобы написать отдельный связный текст, чтобы заново объяснить что мы пытаемся сделать. Но прочитать весь промпт целиком вместе с кодом на 1000 строк чатгпт первые два раза не смог: после 15 минут размышлений - Error in message stream. Но с третьего раз смог, и даже сумел верно ответить на контрольные вопросы и заметить мои ошибки. Видимо, где-то здесь лежит предел его сегодняшних возможностей. С учетом экспоненты, промышленное использование на реально больших проектах пока что наверное не светит.

That said, надо будет все еще проверить но результаты получились просто потрясающие.

Date: 2025-12-11 04:48 pm (UTC)
From: [identity profile] mi-b.livejournal.com
skills issue :) The same model inside GitHub Copilot or Cursor can handle pretty big projects.

Date: 2025-12-11 06:03 pm (UTC)
From: [identity profile] ny-quant.livejournal.com
Whose skills? Чтобы прочитать с нуля техзадание и код никаких особых skills не требуется. Что бы я ни напорол до и после.

Date: 2025-12-11 06:09 pm (UTC)
From: [identity profile] mi-b.livejournal.com
Ну, история примерно как про то, как некто попробовал сделать таблицу с вычислениями в Ворде, а не Экселе, выяснил, что это неудобно, а больше 40 колонок и вовсе непросто, и заключил, что у него плохая материнская плата в компьютере.

Date: 2025-12-11 06:18 pm (UTC)
From: [identity profile] ny-quant.livejournal.com
Не убедительно.

Date: 2025-12-11 06:45 pm (UTC)
From: [identity profile] ormuz.livejournal.com

я обычно прошу его держать в синхронизации три документа


1) общий дизайн с общими детальными требованиями
2) общий список задач, которые мы запланировали
3) контекст и все решения которые мы делали в процессе разработки

и мы с ним не пишем/меняем код, пока не заапрувим изменения во всех трех документах. Это еще помогает с контекстным окном —
можно его заставить прочитать документы, и оно будет готово.

Date: 2025-12-11 07:06 pm (UTC)
From: [identity profile] vladimir-w.livejournal.com
Claude в программировании лучше, чем chatgtp. Говорю как программист. Хотя тоже не идеален, конечно

Date: 2025-12-11 08:08 pm (UTC)
From: [identity profile] polkovnik-isaev.livejournal.com

Я, как правило, пользуюсь GPT, но вчера мне Gemini сильно помог с ну очень специфической рабочей проблемой. Он с полуслова, вернее со скриншота, понял задачу и объяснил варианты ее решения, тогда как GPT не понял совсем и ушел в какие-то дебри. Теперь подумываю переметнуться к Гуглу.

Date: 2025-12-11 09:21 pm (UTC)
From: [identity profile] smirnfil.livejournal.com

Агентный режим резко повышает лимит на котом начинаются подобные проблемы.

Date: 2025-12-11 09:23 pm (UTC)
From: [identity profile] smirnfil.livejournal.com

Зависит, я регулярно переключаю — в агентных режимах клод лучше для больших задач, но вот очень маленькие изменения gpt 5-ка часто лучше подхватывает.

Date: 2025-12-11 10:07 pm (UTC)
From: [identity profile] ny-quant.livejournal.com
Я просто очень сильно подозреваю, что этот агент мне посчитает не то что мне нужно и я никогда не пойму что пошло не так. Я уже и так, даже в интерактивном режиме, затрахался хватать его за руку на вранье.

Date: 2025-12-11 10:38 pm (UTC)
From: [identity profile] smirnfil.livejournal.com

Агентный режим это просто многоразовое выполнение заданий с использованием тулов. Он вместо того, чтобы сразу выдавать код сначала находит контекст, состовляет план и исполняет его. С более подробным анализом существующего и перепроверкой — а точно ли получилось то, что надо. Он регулярно сам себя на вранье ловит. Вот какие-нибудь штуки вроде имен существующих глобальных переменных.
Он заметно повышает точность. Я не говорю, что надо бросать все и использовать агенты, но они были созданны именно для решения проблем указаных в посте.

Date: 2025-12-11 11:43 pm (UTC)
From: [identity profile] stumari.livejournal.com
разделяю и сочувствую
один вопрос, если можно, у вас платный Чат или бесплатный?
(у меня платный, и до лимита я тоже доходил, правда, не в программистском случае)

Date: 2025-12-12 12:36 am (UTC)
From: [identity profile] ny-quant.livejournal.com
Платный. На бесплатном я долго не протянул.

Date: 2025-12-12 04:35 am (UTC)
From: [identity profile] stumari.livejournal.com
аналогично
врет (или "галлюцинирует") это моя самая большая проблема с ним, особенно когда самоуверенно, "вот это точно будет работать!"
с ожиданием у нас пока проблемы не было, но мы всегда спрашиваем маленькие куски, не все программу, а программу пишем сами (точнее, моя жена) на Свифте
сильно помогает, но да, иногда предлагает 10 решений, и ни одно не работает, а иногда прямые ошибки бывают...

Date: 2025-12-12 04:03 pm (UTC)
From: [identity profile] yucca.livejournal.com
Странно, он мне писал программы на несколько сот строк, не особо напрягаясь. Правда, в конце концов я предпочла Клод. Но ошибки делал ужасно раздражающие.

Date: 2025-12-12 04:07 pm (UTC)
From: [identity profile] ny-quant.livejournal.com
Если одноразовое выполнение приводит к ошибке, скажем, 10%, то многоразовое будет ошибочно на 100%.

Даже если вдруг всё получится правильно, убедиться в этом будет труднее, чем пошаговое решение.

Date: 2025-12-12 04:09 pm (UTC)
From: [identity profile] ny-quant.livejournal.com
Подозреваю, что у меня более сложная логика. Других гипотез не видно.

Date: 2025-12-12 04:10 pm (UTC)
From: [identity profile] ny-quant.livejournal.com
А кто делает 2 ?

Date: 2025-12-12 05:19 pm (UTC)
From: [identity profile] ny-quant.livejournal.com
У меня оно разаговаривает одновременно высокомерно, самоуверенно и льстиво. Вот последний перл:

This is the more subtle and interesting bug, and your evidence pins it down beautifully.
Edited Date: 2025-12-12 05:19 pm (UTC)

Date: 2025-12-12 10:28 pm (UTC)
From: [identity profile] stumari.livejournal.com
о, лесть его, это да :)

Date: 2025-12-12 10:45 pm (UTC)
From: [identity profile] ormuz.livejournal.com

оно (c моей помощью):
идея в том, чтоб не давать ему делать большие таски — оно всегда должно разбивать на мелкие, делать подобающую запись в TODO документе, и спрашивать когда мы начнем делать такую-то задачу, и не начинало пока не будет четко понятно, что мы хотим от этой таски и что точно не хотим.

У Курсора (например), это прямо в интерфейсе реализовано — plan mode.

Date: 2025-12-13 06:52 am (UTC)

Date: 2025-12-13 04:41 pm (UTC)
From: [identity profile] ny-quant.livejournal.com
А что такое Курсор?

Date: 2025-12-21 12:12 am (UTC)
ext_646638: (Default)
From: [identity profile] rdia.livejournal.com
Может быть её проще закодировать на формальном языке? Всё-таки проблема с after возникла именно из-за использования естественного языка.

Date: 2025-12-21 04:32 am (UTC)
From: [identity profile] ny-quant.livejournal.com
Может еще проще вообще всё писать самому?

Date: 2025-12-21 12:03 pm (UTC)
ext_646638: (Default)
From: [identity profile] rdia.livejournal.com
Только часть. Оно хорошо переводит с языка на язык. То есть, напишете на SQL, оно переведёт на Питоновскую библиотеку.

Date: 2025-12-22 08:40 pm (UTC)
From: [identity profile] smirnfil.livejournal.com

Cursor — один из первых редакторов с агентным режимом.

Profile

ny_quant: (Default)
ny_quant

December 2025

S M T W T F S
 12 34 56
7 89 10 111213
14 151617 181920
21 2223 24252627
28 29 3031   

Most Popular Tags

Style Credit

Expand Cut Tags

No cut tags
Page generated Dec. 31st, 2025 03:51 pm
Powered by Dreamwidth Studios