ny_quant: (Default)
[personal profile] ny_quant
Начало, продолжение.

По мере того как я делал задачу более реалистичной а не учебно-игрушечной, техзадание усложнялось и соответственно усложнялся и увеличивался в размере предлагаемый мне код. При этом произошли несколько крайне неприятных вещей.

1.Время работы над каждым следующим этапом возросло экспоненциально. В некоторых случаях, чатгпт уходил на несколько часов, при этом на странице было написано, что оно думало типа 3 мин 22 сек и дальше мигающая черная точка на час, два или четыре. (Причем, не только для написания нового кода или его редактирования, но и для объяснения происходящего тоже.)

Возможно, собственно код производится каким-то отдельным движком, черт его знает. Когда я спросил почему так долго, оно сказало типа а чего ж ты ожидаешь когда мне надо работать с сотнями строк кода. Побочным эффектом этого явления стали серьезное замедление процесса, и (что хуже) потеря мной контроля за происходящим (мне трудно следить за всеми деталями столь длинного кода, особенно на языке, в котором я не эксперт), и что совсем плохо - потеря концентрации. Как знает каждый программист, это занятие требует глубокого погружения, а тут мне поневоле приходилось отвлекаться.

2.Стало больше ошибок и - что ещё хуже - стало всё сложнее их исправлять. Мало того, что каждая итерация занимала часы, так еще и предлагаемое решение как правило оказывалось неверным. Так, что каждый шаг вперед давался с большим трудом и занимал уже не минуты как в начале, а иной раз по паре дней.

3.Более того, когда мы детально дебагали причины того, что на выдаче такая чушь, оказалось, что некоторые из моих инструкций были неправильно поняты, а я этого сразу не заметил. Например, слово “after” в смысле даты было закодировано как «>=» вместо «>» (см. потеря концентрации и контроля). Из всего этого мне совершенно очевидно, что никакие «агентские» решения в б-м нетривиальных ситуациях пока что не катят. Или м.б. для этого нужен не чатгпт, а какой-то другой ИИ. И, конечно, надо внимательнее следить за базаром.

4.Огромной ошибкой оказалась работа с глобальными переменными. Сам я этого избегаю как черт ладана еще со студенческих времен, но тут попустил и расплатился. Чатгпт, в процессе починки багов, незаметно переименовывал некоторые переменные, причем совершенно забывал как и где они используются в других ячейках, так что эти ошибки мне пришлось искать и чинить самому. Возможно, такой стиль программирования естествен при работе с Jupyter notebooks, но мне следовало это запретить с самого начала.

Мои усилия по тщательной формулировке заданий и по разделению задачи на этапы оказались недостаточными по обоим пунктам. Как только я получил первую выдачу строк на 400, надо было задуматься как разбить задание на более мелкие кусочки. Но это был тот этап когда всё шло гладко, и я думал, что так будет и дальше. Как я ошибся, как наказан!

Уже в самом конце, неожиданно пришел мессидж "You've reached the maximum length for this conversation, but you can keep talking by starting a new chat." Новый чат отказался читать старый. Пришлось потратить кучу времени (часа 2.5, не меньше) на то чтобы написать отдельный связный текст, чтобы заново объяснить что мы пытаемся сделать. Но прочитать весь промпт целиком вместе с кодом на 1000 строк чатгпт первые два раза не смог: после 15 минут размышлений - Error in message stream. Но с третьего раз смог, и даже сумел верно ответить на контрольные вопросы и заметить мои ошибки. Видимо, где-то здесь лежит предел его сегодняшних возможностей. С учетом экспоненты, промышленное использование на реально больших проектах пока что наверное не светит.

That said, надо будет все еще проверить но результаты получились просто потрясающие.

Date: 2025-12-12 10:45 pm (UTC)
From: [identity profile] ormuz.livejournal.com

оно (c моей помощью):
идея в том, чтоб не давать ему делать большие таски — оно всегда должно разбивать на мелкие, делать подобающую запись в TODO документе, и спрашивать когда мы начнем делать такую-то задачу, и не начинало пока не будет четко понятно, что мы хотим от этой таски и что точно не хотим.

У Курсора (например), это прямо в интерфейсе реализовано — plan mode.

Date: 2025-12-13 04:41 pm (UTC)
From: [identity profile] ny-quant.livejournal.com
А что такое Курсор?

Date: 2025-12-22 08:40 pm (UTC)
From: [identity profile] smirnfil.livejournal.com

Cursor — один из первых редакторов с агентным режимом.

Profile

ny_quant: (Default)
ny_quant

December 2025

S M T W T F S
 12 34 56
7 89 10 111213
14 151617 181920
21 2223 24252627
28 29 3031   

Most Popular Tags

Style Credit

Expand Cut Tags

No cut tags
Page generated Dec. 31st, 2025 04:02 pm
Powered by Dreamwidth Studios