softelвчера в 20:25

Распознавание изображений локальными LLM

1 мин

7.6K

Искусственный интеллектБудущее здесь

Комментарии 22

Terranz вчера в 20:40

Я чесслово не могу понять, зачем текстовыми моделями распознавать что-то кроме текста?

softel вчера в 20:44

Например тексты с картинок taobao

ENick вчера в 21:02

это не текстовая модель: """имеющейся у меня модели LLM, которая умеет распозновать фото """

ENick вчера в 21:08

"""На написание статьи меня подвинул один из комментариев - "а как интересно нейросеть распознает разные типы животных" """ и куда подвинул? Ответа на вопрос: """как нейросеть распознает разные типы животных""" я не увидел. Что хотел сказать Автор этой публикацией?

softel вчера в 21:14

Извините, у вас много кавычек в ответе на комментарий, соберитесь и задайте свой вопрос грамотней.

hubabubabagz 22 часа назад

Они могут написать подробное текстовое описание - промпт для рисования "такой же" картинки/ Это популярный сценарий у "нейрохудожников". Они целыми днями такой фигней занимаются.

StraNNicK вчера в 21:02

Весит эта модель 67 гигабайт, если интересно на чем она была запущена отвечу в комментариях.

Интересно. Подозреваю, что что-то вроде GMKtec EVO-X2 128GB

normal вчера в 21:08

любопытно. а кто-нибудь нашел открытую LLM под сканы российских паспортов? ну то что делают многие коммерческие решения. из скана паспорта (который может быть и на боку, и перевернут) -- четко выдать серию, ФИО, место выдачи и т.д

softel вчера в 21:12

Присылай фото своего паспорта в любом ракурсе, прогоню его через свою нейронку, вдруг она распознает.

dkeiz 16 часов назад

какой-нибудь qwen 3 8B vl наверняка справится, если объяснить ему что от него хотят.

Terranz 10 часов назад

Мы сами делали

softel вчера в 21:09

краткая характеристика моего сервера:

Процессор Core I9 14900KF

RAM: DDR5 192 Gb.

GPU 2 x RTX4090D 48Gb (96 Гб. VRAM GDDR6X), производительность по меркам huggingface 166 TFLOPS

Bobos вчера в 22:23

Рекомендую забить на webui и открыть для себя удивительный мир comfyui. Там с таким железом можно очень неплохо поразвлечься. А заодно и понять, что именно происходит под капотом всех этих генераторов и распозновалок картинок.

softel вчера в 22:25

Спасибо, попробую.

А железо планирую апгрейдить.

vlsnake вчера в 21:43

То что реально удивило в последнее время Qwen/Qwen3-Omni-Demo - картинки - это 2025 год а видео - вот тут я сбросил видео записанное при помощи FuncAnimation из matplotlib, и попросил написать код на python генерирующий это видео - честно я удивлен результатом - китайцы молодцы.

Из локального, которое можно еще запустить на компе недавно вышла Qwen/Qwen3.5-397B-A17B - вроде GGUF модели около 96Гб

hubabubabagz 23 часа назад

gemma намного меньше и дает такие же ответы

softel 22 часа назад

Я не проверял, но если вы проверяли, то может поделитесь результатами, если вам не сложно конечно.

hubabubabagz 22 часа назад

Это 17гб модель, и у нее есть версии на 8 и 3гб.

softel 22 часа назад

Ну неплохо, скачаю, может для чего и пригодится.

hubabubabagz 22 часа назад

qwen еще есть, он позднее всех вышел, должен быть лучше, по цифрам бенчмарков точно лучше

vlsnake 8 часов назад

А скормите вот это https://www.youtube.com/shorts/9b19b7SmovU и попросите на питоне написать код анимации. Даже больше - попробуйте на любой платной модели

evgensenin 13 часов назад

Если вдруг решитесь развивать эту тему в следующих статьях, то могу предложить проработать тему какие максимально маленькие нейронки могут точно распознавать множество деталей на реалистичных фотографиях (семейных к примеру) и с выходом в json формате. (может есть что-то получше yolo)

Зарегистрируйтесь на Хабре, чтобы оставить комментарий