ny_quant

После самообладания поговорить не с кем. (старый анекдот)

Заголовок/эпиграф не только для привлечения внимания, но и интимно (хм) связан с темой поста. Пожалуй, мне не пересказать содержание заметки в НЙ Таймс в одном параграфе лучше, чем сделали это они сами:

A.I.-generated content is becoming harder to detect. As A.I. companies trawl the web for new data to train their upgrades, it is more likely that they will ingest A.I.-generated content. What would it look like if a model is trained on its own output? To find out, we showed handwritten numbers to an A.I. and asked it to mimic those digits. Then we fed the result back into the system, over and over again.

После 20 итераций выглядело вот так:

AI self 20.jpg

А после 30 итераций вот так:

AI self 30.jpg

Эти картинки иллюстрируют общий результат: in a paper published last month in the journal Nature, a group of researchers in Britain and Canada showed how this process results in a narrower range of A.I. output over time — an early stage of what they called “model collapse.”

На первый взгляд выглядит так как будто они там доказывают вариант теоремы о неподвижной точке. Но разбираться лень и особенно незачем.

В реальности, конечно, модели будут обучать на смеси настоящих и квази-данных, так что не всё так сумрачно вблизи. Тем не менее, опасение, что вес A.I.-generated content будет только расти кажется обоснованным. К чему это может привести - непонятно. Интересно было бы заслушать мнения специалистов, e.g.