В примере который я привел, обычно собирается библиотека с двумя бэкендами например CPU и CUDA. Это позволяет часть вычислений производить на CPU, например при загрузке и предобработке данных, а потом передать их на GPU для вычислений, потом вернуть пользователю на хост. Если вы сталкивались с установкой PyTorch то могли заметить, что существуют отдельные бинарные пакеты для CUDA или ROCm и т.д. И подход на который вы сослались тоже применяется но уже при сборке такого пакета.

coodi 19 фев в 06:45

А в llama.cpp как сделано? Я не знаю, просто спрашиваю.

Mik42 19 фев в 06:54

Если я правильно понял то там реализовано через динамическую загрузку разделяемых библиотек с одинаковым интерфейсом. Вот ссылки на код: регистрация и загрузка.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий