ny_quant: (Default)
ny_quant ([personal profile] ny_quant) wrote2024-12-24 02:51 pm
Entry tags:

Чем отличается обладание от самообладания?

После самообладания поговорить не с кем. (старый анекдот)

Заголовок/эпиграф не только для привлечения внимания, но и интимно (хм) связан с темой поста. Пожалуй, мне не пересказать содержание заметки в НЙ Таймс в одном параграфе лучше, чем сделали это они сами:

A.I.-generated content is becoming harder to detect. As A.I. companies trawl the web for new data to train their upgrades, it is more likely that they will ingest A.I.-generated content. What would it look like if a model is trained on its own output? To find out, we showed handwritten numbers to an A.I. and asked it to mimic those digits. Then we fed the result back into the system, over and over again.

После 20 итераций выглядело вот так:

AI self 20.jpg

А после 30 итераций вот так:

AI self 30.jpg

Эти картинки иллюстрируют общий результат: in a paper published last month in the journal Nature, a group of researchers in Britain and Canada showed how this process results in a narrower range of A.I. output over time — an early stage of what they called “model collapse.”

На первый взгляд выглядит так как будто они там доказывают вариант теоремы о неподвижной точке. Но разбираться лень и особенно незачем.

В реальности, конечно, модели будут обучать на смеси настоящих и квази-данных, так что не всё так сумрачно вблизи. Тем не менее, опасение, что вес A.I.-generated content будет только расти кажется обоснованным. К чему это может привести - непонятно. Интересно было бы заслушать мнения специалистов, e.g. [livejournal.com profile] misha_b.

[identity profile] olaff67.livejournal.com 2024-12-24 08:33 pm (UTC)(link)
Я, кажется, уже рассказывал, что в ютубе были попытки научить ИИ «видеть» и разбирать картинки и видео. И если в деле распознавания речи за семь лет был сделан действительно прорыв, то насчет визуальной информации никакого прогресса не было. Мы в своем проекте видели эти попытки онлайн — полный ноль.

[identity profile] ny-quant.livejournal.com 2024-12-24 08:51 pm (UTC)(link)
Прогресс летит стремительным домкратом. Совсем недавно я видел у кого-то пост, где какому-то из ИИ показали нетривиальное фото, которое он отлично понял, разобрал во всех деталях и тонкостях, и грамотно прокомментировал.

[identity profile] olaff67.livejournal.com 2024-12-24 09:18 pm (UTC)(link)
У гугла нет, а у жж-истов есть!

[identity profile] ny-quant.livejournal.com 2024-12-24 08:55 pm (UTC)(link)
Вспомнил: https://mi3ch.livejournal.com/5997438.html

Игрушка здесь: https://theyseeyourphotos.com/

[identity profile] olaff67.livejournal.com 2024-12-24 09:24 pm (UTC)(link)
А! Уже есть у гугла. Вот скопидомы: не давали это в ютуб — сами типа бейтесь головой о стену.
Ютубовский вообще ничего не понисал, что на картинке

[identity profile] ny-quant.livejournal.com 2024-12-24 10:03 pm (UTC)(link)
А что значит есть у гугла? Что надо сделать, чтобы гугл сделал нечто подобное?

[identity profile] olaff67.livejournal.com 2024-12-24 10:17 pm (UTC)(link)
Это и есть гугловский api

Cпасибо за наводку, теперь я знаю, что наш проект сократили не просто потому, что перевели за границу и в Техас.
Edited 2024-12-24 22:20 (UTC)

[identity profile] olaff67.livejournal.com 2024-12-25 01:18 am (UTC)(link)
Распознавание речи произошло по корпоративным меркам очень быстро: где-то за месяц-два мы стали иметь полную и правильную расшифровку английских и русских аудио любой длины.
Скорее всего, гугловский ИИ-проект просто спустил в ютуб свою наработку. И с картинками произошло, видимо, то же самое: пока ютубовцы ковырялись ни шатко, ни валко со своими идеями, «ИИнтеллектовцы» допилили глаза своему ИИ и вывалили на ютубовских.

[identity profile] ny-quant.livejournal.com 2024-12-25 02:18 am (UTC)(link)
Где б найти такой ИИ чтоб понимал индийский акцент?! А то у меня как ни колл с индусами так катастрофа.

[identity profile] olaff67.livejournal.com 2024-12-25 02:47 am (UTC)(link)
Вот, кстати, да — многие языки работают гораздо хуже. Наверное, на них мало ИИ тренируют.

[identity profile] polkovnik-isaev.livejournal.com 2024-12-24 11:35 pm (UTC)(link)

Если я еду в машине и мне приходит текстовое сообщение с фотографией, то телефон довольно аккуратно описывает, что там изображено. Следующим шагом будет, я думаю, facial recognition.

[identity profile] ny-quant.livejournal.com 2024-12-24 11:46 pm (UTC)(link)
А если не в машине, то не описывает? Интересно, откуда телефон знает, что вы едете в машине.

Мне машина зачитывает тексты, но фото не описывает.

[identity profile] polkovnik-isaev.livejournal.com 2024-12-25 12:50 am (UTC)(link)

Знает, потому что подключен к машине через Apple Car Play.

[identity profile] ny-quant.livejournal.com 2024-12-25 02:19 am (UTC)(link)
Я впечатлён!

[identity profile] polkovnik-isaev.livejournal.com 2024-12-25 03:28 am (UTC)(link)

Это сарказм? У вас в машине разве не так?

[identity profile] ny-quant.livejournal.com 2024-12-25 03:52 am (UTC)(link)

Нет и нет. Машина говорит что жена говорит ... и зачитывает название файла, например image0001. А еще Elon Mask называется. Правда у нас андроиды.

Edited 2024-12-25 03:53 (UTC)

[identity profile] polkovnik-isaev.livejournal.com 2024-12-25 05:12 am (UTC)(link)
Первый раз, когда это произошло, дочка прислала мне фото рамена. На экране машины выскочило сообщение, что получен текст, я ткнул в него пальцем и приятный женский голос вдруг начал мне рассказывать про bowl with noodles, vegetables and an egg. А сегодня получил фото внуков и описание было “children playing with toys on the floor”. Я думаю, скоро вместо дженерик children будет называть поименно.

[identity profile] olaff67.livejournal.com 2024-12-25 12:50 am (UTC)(link)
Какой телефон — пиксель?

[identity profile] olaff67.livejournal.com 2024-12-25 01:03 am (UTC)(link)
А, нашел как это включать. Видимо, разницу между статической картинкой и видео научили преодолевать относительно недавно.
Еще в 23 году оценка визуала была почти всегда мимо.

[identity profile] polkovnik-isaev.livejournal.com 2024-12-25 01:06 am (UTC)(link)

Да, эта фича в этом году появилась после очередного обновления.

[identity profile] olaff67.livejournal.com 2024-12-25 01:21 am (UTC)(link)
Вот также нам в свое время вывалили растекстовку всех видео: бац — нате, работайте!
Мы тогда еще обрадовались — работа облегчилась, хех.

[identity profile] misha-b.livejournal.com 2024-12-26 03:57 am (UTC)(link)

Modern models are fantastic in analyzing images, try chatGPT app, for example. True, a few years ago it did not work well at all, but in the last couple of years everything has changed.

[identity profile] olaff67.livejournal.com 2024-12-26 04:18 am (UTC)(link)
Да, уже осознал

[identity profile] misha-b.livejournal.com 2024-12-26 03:55 am (UTC)(link)
I would not lose sleep over it. I've seen some talks about this type of collapse, apparently it only happens when the models are precisely aligned (at least in simple theoretical settings, who knows what happens in practice).

They have been using data produced by larger models to train smaller models very successfully in fact, e.g., https://arxiv.org/abs/2306.11644 .