VLM в Нейро: как в Яндексе создавали мультимодальную нейросеть для поиска по картинкам…

VLM в Нейро: как в Яндексе создавали мультимодальную нейросеть для поиска по картинкамНейро поможет найти ответы в Поиске по картинкам и в Умной камере — с помощью новой мультимодальной модели Яндекса. Пользователь может не только узнать, что изображено на картинке, но и задать вопрос по каждой её детали. Например, гуляя по музею, можно сфотографировать натюрморт голландского живописца и спросить, что символизирует тот или иной предмет на картине.Поговорим о том, что такое визуально‑текстовые мультимодальные модели (Visual Language Models или VLM), как в Яндексе организован процесс их обучения и какая у них архитектура. Вы узнаете, как Нейро работал с картинками и текстами раньше, и что изменилось с появлением VLM.