ny_quant

Я, кажется, уже рассказывал, что в ютубе были попытки научить ИИ «видеть» и разбирать картинки и видео. И если в деле распознавания речи за семь лет был сделан действительно прорыв, то насчет визуальной информации никакого прогресса не было. Мы в своем проекте видели эти попытки онлайн — полный ноль.

From:

Прогресс летит стремительным домкратом. Совсем недавно я видел у кого-то пост, где какому-то из ИИ показали нетривиальное фото, которое он отлично понял, разобрал во всех деталях и тонкостях, и грамотно прокомментировал.

From:

У гугла нет, а у жж-истов есть!

From:

Вспомнил: https://mi3ch.livejournal.com/5997438.html

Игрушка здесь: https://theyseeyourphotos.com/

From:

А! Уже есть у гугла. Вот скопидомы: не давали это в ютуб — сами типа бейтесь головой о стену.
Ютубовский вообще ничего не понисал, что на картинке

From:

А что значит есть у гугла? Что надо сделать, чтобы гугл сделал нечто подобное?

From:

Это и есть гугловский api

Cпасибо за наводку, теперь я знаю, что наш проект сократили не просто потому, что перевели за границу и в Техас.

Edited Date: 2024-12-24 10:20 pm (UTC)

From:

From:

Распознавание речи произошло по корпоративным меркам очень быстро: где-то за месяц-два мы стали иметь полную и правильную расшифровку английских и русских аудио любой длины.
Скорее всего, гугловский ИИ-проект просто спустил в ютуб свою наработку. И с картинками произошло, видимо, то же самое: пока ютубовцы ковырялись ни шатко, ни валко со своими идеями, «ИИнтеллектовцы» допилили глаза своему ИИ и вывалили на ютубовских.

From:

Где б найти такой ИИ чтоб понимал индийский акцент?! А то у меня как ни колл с индусами так катастрофа.

From:

Вот, кстати, да — многие языки работают гораздо хуже. Наверное, на них мало ИИ тренируют.

From:

Если я еду в машине и мне приходит текстовое сообщение с фотографией, то телефон довольно аккуратно описывает, что там изображено. Следующим шагом будет, я думаю, facial recognition.

From:

А если не в машине, то не описывает? Интересно, откуда телефон знает, что вы едете в машине.

Мне машина зачитывает тексты, но фото не описывает.

From:

Знает, потому что подключен к машине через Apple Car Play.

From:

Я впечатлён!

From:

Это сарказм? У вас в машине разве не так?

From:

Нет и нет. Машина говорит что жена говорит ... и зачитывает название файла, например image0001. А еще Elon Mask называется. Правда у нас андроиды.

Edited Date: 2024-12-25 03:53 am (UTC)

From:

Первый раз, когда это произошло, дочка прислала мне фото рамена. На экране машины выскочило сообщение, что получен текст, я ткнул в него пальцем и приятный женский голос вдруг начал мне рассказывать про bowl with noodles, vegetables and an egg. А сегодня получил фото внуков и описание было “children playing with toys on the floor”. Я думаю, скоро вместо дженерик children будет называть поименно.

From:

Какой телефон — пиксель?

From:

Айфон 14 про

From:

А, нашел как это включать. Видимо, разницу между статической картинкой и видео научили преодолевать относительно недавно.
Еще в 23 году оценка визуала была почти всегда мимо.

From:

Да, эта фича в этом году появилась после очередного обновления.

From:

Вот также нам в свое время вывалили растекстовку всех видео: бац — нате, работайте!
Мы тогда еще обрадовались — работа облегчилась, хех.

From:

misha-b.livejournal.com

Modern models are fantastic in analyzing images, try chatGPT app, for example. True, a few years ago it did not work well at all, but in the last couple of years everything has changed.

From: