ny_quant | Чем отличается обладание от самообладания?

Entry tags:

ии

Чем отличается обладание от самообладания?

После самообладания поговорить не с кем. (старый анекдот)

Заголовок/эпиграф не только для привлечения внимания, но и интимно (хм) связан с темой поста. Пожалуй, мне не пересказать содержание заметки в НЙ Таймс в одном параграфе лучше, чем сделали это они сами:

A.I.-generated content is becoming harder to detect. As A.I. companies trawl the web for new data to train their upgrades, it is more likely that they will ingest A.I.-generated content. What would it look like if a model is trained on its own output? To find out, we showed handwritten numbers to an A.I. and asked it to mimic those digits. Then we fed the result back into the system, over and over again.

После 20 итераций выглядело вот так:

AI self 20.jpg

А после 30 итераций вот так:

AI self 30.jpg

Эти картинки иллюстрируют общий результат: in a paper published last month in the journal Nature, a group of researchers in Britain and Canada showed how this process results in a narrower range of A.I. output over time — an early stage of what they called “model collapse.”

На первый взгляд выглядит так как будто они там доказывают вариант теоремы о неподвижной точке. Но разбираться лень и особенно незачем.

В реальности, конечно, модели будут обучать на смеси настоящих и квази-данных, так что не всё так сумрачно вблизи. Тем не менее, опасение, что вес A.I.-generated content будет только расти кажется обоснованным. К чему это может привести - непонятно. Интересно было бы заслушать мнения специалистов, e.g.

misha_b.

Flat | Top-Level Comments Only

Я, кажется, уже рассказывал, что в ютубе были попытки научить ИИ «видеть» и разбирать картинки и видео. И если в деле распознавания речи за семь лет был сделан действительно прорыв, то насчет визуальной информации никакого прогресса не было. Мы в своем проекте видели эти попытки онлайн — полный ноль.

Прогресс летит стремительным домкратом. Совсем недавно я видел у кого-то пост, где какому-то из ИИ показали нетривиальное фото, которое он отлично понял, разобрал во всех деталях и тонкостях, и грамотно прокомментировал.

У гугла нет, а у жж-истов есть!

Вспомнил: https://mi3ch.livejournal.com/5997438.html

Игрушка здесь: https://theyseeyourphotos.com/

А! Уже есть у гугла. Вот скопидомы: не давали это в ютуб — сами типа бейтесь головой о стену.
Ютубовский вообще ничего не понисал, что на картинке

А что значит есть у гугла? Что надо сделать, чтобы гугл сделал нечто подобное?

Это и есть гугловский api

Cпасибо за наводку, теперь я знаю, что наш проект сократили не просто потому, что перевели за границу и в Техас.

Edited 2024-12-24 22:20 (UTC)

Распознавание речи произошло по корпоративным меркам очень быстро: где-то за месяц-два мы стали иметь полную и правильную расшифровку английских и русских аудио любой длины.
Скорее всего, гугловский ИИ-проект просто спустил в ютуб свою наработку. И с картинками произошло, видимо, то же самое: пока ютубовцы ковырялись ни шатко, ни валко со своими идеями, «ИИнтеллектовцы» допилили глаза своему ИИ и вывалили на ютубовских.

Где б найти такой ИИ чтоб понимал индийский акцент?! А то у меня как ни колл с индусами так катастрофа.

Вот, кстати, да — многие языки работают гораздо хуже. Наверное, на них мало ИИ тренируют.

Если я еду в машине и мне приходит текстовое сообщение с фотографией, то телефон довольно аккуратно описывает, что там изображено. Следующим шагом будет, я думаю, facial recognition.

А если не в машине, то не описывает? Интересно, откуда телефон знает, что вы едете в машине.

Мне машина зачитывает тексты, но фото не описывает.

Знает, потому что подключен к машине через Apple Car Play.

Я впечатлён!

Это сарказм? У вас в машине разве не так?

Нет и нет. Машина говорит что жена говорит ... и зачитывает название файла, например image0001. А еще Elon Mask называется. Правда у нас андроиды.

Edited 2024-12-25 03:53 (UTC)

Первый раз, когда это произошло, дочка прислала мне фото рамена. На экране машины выскочило сообщение, что получен текст, я ткнул в него пальцем и приятный женский голос вдруг начал мне рассказывать про bowl with noodles, vegetables and an egg. А сегодня получил фото внуков и описание было “children playing with toys on the floor”. Я думаю, скоро вместо дженерик children будет называть поименно.

Какой телефон — пиксель?

Айфон 14 про

А, нашел как это включать. Видимо, разницу между статической картинкой и видео научили преодолевать относительно недавно.
Еще в 23 году оценка визуала была почти всегда мимо.

Да, эта фича в этом году появилась после очередного обновления.

Вот также нам в свое время вывалили растекстовку всех видео: бац — нате, работайте!
Мы тогда еще обрадовались — работа облегчилась, хех.

Modern models are fantastic in analyzing images, try chatGPT app, for example. True, a few years ago it did not work well at all, but in the last couple of years everything has changed.

Да, уже осознал

I would not lose sleep over it. I've seen some talks about this type of collapse, apparently it only happens when the models are precisely aligned (at least in simple theoretical settings, who knows what happens in practice).

They have been using data produced by larger models to train smaller models very successfully in fact, e.g., https://arxiv.org/abs/2306.11644 .

Flat | Top-Level Comments Only

Чем отличается обладание от самообладания?

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject