Изображение создано с помощью ChatGPT
Изображение создано с помощью ChatGPT

Почему два человека, у которых один и тот же заработок и кредитная история, могут оказаться обязаны платить совершенно разные проценты по одному и тому же займу? В этой статье мы посмотрим, как устроены банковские системы определения ставок, рассмотрим настоящие примеры дискриминации от Ally Bank и Test-Achats, и продемонстрируем, как деревья решений и градиентный бустинг используются для оценки того, сможете ли вы расплатиться – и как эти методы могут быть неверными.

Введение: Иллюзия справедливости и дело Ally Bank

Представьте себе Марка и Дэвида из Соединенных Штатов. У них почти одинаковые финансовые данные: кредитный рейтинг 720 согласно FICO, годовой доход примерно 60 тысяч долларов. Они оба пришли в один и тот же автомобильный салон, чтобы приобрести один и тот же автомобиль – новый седан стоимостью 25 тысяч долларов. С точки зрения любого банка, оба являются прекрасными клиентами. Но есть одна вещь, которого нет в их кредитных отчетах: Марк – белый, а Дэвид – афроамериканец. И, как оказалось, из-за этого Дэвид может заплатить на несколько тысяч долларов больше.

Обоим одобряют автокредит, однако Марку предлагают 5% годовых, а Дэвиду – 8%. За тот же автомобиль, при том же уровне кредитного риска. Разница в 3 процентных пункта. Возможно, на первый взгляд, это не такая уж и большая сумма, но дьявол в деталях: с кредитом в 25 тысяч долларов на пять лет, Дэвид заплатит примерно на 2000 долларов больше, чем Марк. Две тысячи долларов – за то, что он родился с другим цветом кожи.

Это не выдумка. Это реальное дело 2013 года против Ally Bank, одного из самых крупных в США банков, выдающих автокредиты. 20 декабря 2013 года Министерство юстиции и Бюро финансовой защиты потребителей объявили об урегулировании самого большого на тот момент дела, касающегося дискриминации при автокредитовании.

Расследование показало, что политика Ally Bank позволяла автодилерам использовать так называемую «дилерскую наценку». Банк, используя свои модели оценки, устанавливал для каждого заемщика справедливую, основанную на риске, основную ставку – «покупную ставку». Но дилер, по соглашению с Ally Bank, имел право по своему усмотрению добавить к ней несколько процентных пунктов в качестве своей наценки. Именно эта наценка и была источником дискриминации. Дилеры, следуя своим предрассудкам – сознательным или бессознательным – систематически увеличивали ставки для заемщиков из числа меньшинств. В итоге более 235 тысяч афроамериканцев, латиноамериканцев и выходцев из Азии платили за кредиты больше, чем белые клиенты с таким же уровнем риска. В среднем афроамериканские заемщики переплачивали более 300 долларов за весь срок кредита.

Человеческий фактор – жадность и предрассудки дилера – превратили, казалось бы, объективную систему в инструмент систематической дискриминации. В конечном счете Ally Bank заплатил 98 миллионов долларов США для урегулирования этого дела: 80 миллионов в качестве компенсации пострадавшим и 18 миллионов – в виде штрафа.

История Ally Bank ставит фундаментальный вопрос: почему два человека с одинаковой кредитоспособностью платят разную цену за один и тот же кредит? Сегодня мы поговорим о ценообразовании, основанном на риске (Risk-Based Pricing). Идея кажется справедливой: каждый платит за свой собственный риск. Надежные заемщики получают низкие ставки, а рискованные – высокие. Но, как мы уже видели, на практике эта система может давать сбои, и грань между справедливой оценкой риска и незаконной дискриминацией оказывается пугающе тонкой.

Как это должно работать? Анатомия кредитного ценообразования

Чтобы понять, как банк определяет именно вашу процентную ставку, нужно посмотреть, из чего она состоит. Ставка по кредиту – это не просто так взятое число; она формируется из нескольких основных частей:

  • Стоимость привлечения средств: Банк не производит деньги сам, а берет их у тех, кто делает вклады, у других банков или на денежном рынке, и за это платит проценты. Это как бы "цена", которую банк платит за деньги.

  • Затраты на "работу" банка: Зарплаты сотрудников, содержание зданий, расходы на покупку и обслуживание компьютерных систем, реклама, расходы на возврат долгов – все это учитывается в ставке.

  • Прибыль банка: Банк – это бизнес, и он хочет получать доход. Размер этой прибыли зависит от конкуренции, того, как банк работает, и от ситуации в экономике в целом.

  • Надбавка за риск: Это самая важная и непростая для нас часть. Это как запас, который покрывает потери от тех, кто не сможет вернуть кредит.

В банковском деле надбавка за риск считается по формуле ожидаемых убытков (Expected Loss, EL). Это, по сути, основа всего ценообразования, связанного с риском. Формула такая:

EL = PD \times LGD \times EAD

Рассмотрим каждый элемент на примере:

  1. PD (Probability of Default) – Вероятность невозврата. Это именно то, что предсказывает скоринговая ��истема. Если система показывает, что ваш PD – 5%, это значит, что из ста человек с вашими данными примерно пятеро не выплатят кредит за определенный срок.

  2. LGD (Loss Given Default) – Потери при невозврате. Какая часть кредита будет потеряна, если заемщик окажется неплатежеспособным. Это зависит от того, есть ли обеспечение и насколько оно хорошее. Для ипотеки LGD может быть невысокой (10–30%), потому что банк продаст квартиру. Для кредита на машину с пробегом LGD выше (40–60%). А для обычного потребительского кредита или кредитной карты LGD может быть 80–100%.

  3. EAD (Exposure at Default) – Размер долга на момент невозврата. Для обычного потребительского кредита это просто сколько еще осталось долга. Для кредитных линий, которые можно пополнять (как кредитная карта), это сложнее: банку нужно "угадать", какую часть лимита клиент потратит к моменту невозврата.

Если умножить все три показателя, банк получает ожидаемый убыток по вашему кредиту – в денежном выражении. Допустим, вы берете сто тысяч рублей потребительского кредита без обеспечения. Ваша скоринговая система показывает PD = 5%. Банк считает, что для этого продукта LGD будет 80%. Тогда ожидаемый убыток: 0,05 × 0,80 × 100 000 = 4 000 рублей. Эти 4% (4000 рублей от 100 000) – это и есть ваша надбавка за риск, которую банк должен учесть в процентной ставке, чтобы компенсировать статистические потери.

Две модели вместо одной

Современные банки зашли еще дальше: они применяют сразу две модели машинного обучения, чтобы установить лучший процент.

Модель

Задача

Входные данные

Выходные данные

Модель Риска (Risk Model)

Предсказать вероятность невозврата кредита (PD)

Данные о заемщике (доход, история, и прочее)

Вероятность от 0 до 1

Модель Принятия (Acceptance Model)

Предсказать вероятность согласия на процентную ставку

Поведение клиента, ставки других банков, ситуация на рынке

Вероятность от 0 до 1

Модель риска – это обычная задача бинарной классификации. На вход подаются сотни параметров: возраст, доход, кредитная история, опыт работы и так далее. На выходе – вероятность того, что кредит не будет возвращен.

Модель принятия, в свою очередь, изучает вашу чувствительность к цене. Она пытается выяснить, примете ли вы предложенный процент. Если банк предложит 50% в год, вы, вероятно, откажетесь. Если предложит 5%, вы согласитесь, но банк потеряет доход, потому что вы могли бы заплатить 10%.

Банк проверяет целый ряд процентных ставок. Для каждой ставки модель риска вычисляет предполагаемый убыток, а модель принятия – вероятность вашего согласия. Затем простая формула определяет «оптимальную» ставку – ту, которая увеличивает ожидаемую прибыль банка до максимума.

Expected Profit = P(Accept) \times [ (Revenue) - (Costs) - (Expected Loss) ]

Это сложная система, позволяющая банку давать каждому клиенту индивидуальные условия. Но именно в том, как модель риска принимает решения, заключается причина проблем.

Как модель принимает решение: от логики до «черного ящика»

Самая простая модель машинного обучения – это дерево решений. Это серия вопросов «да/нет». Доход больше 50 тысяч? Если да – идем вправо. Есть задержки платежей? Если да – идем влево. В конце каждой ветки – предсказанная вероятность невозврата кредита. Такую модель легко понять, ее можно буквально нарисовать на доске. Но ее точность часто оставляет желать лучшего.

Изображение создано с помощью ChatGPT
Изображение создано с помощью ChatGPT

Более сложные и точные модели, такие как градиентный бустинг, строят не одно дерево, а «ансамбль» из сотен или тысяч деревьев, которые «голосуют» вместе, исправляя ошибки друг друга. Нейронные сети – это слои математических функций, которые могут находить нелинейные связи, невидимые человеческому глазу. Чем сложнее модель, тем, как правило, выше ее способность предсказывать. Но за это приходится платить: объяснить, почему нейросеть с миллионами параметров приняла то или иное решение, почти не представляется возможным. Это и есть «черный ящик».

Когда все идет не так: прокси-дискриминация

Закон о равных кредитных возможностях (ECOA) в США и подобные законы в других странах запрещают дискриминацию по признакам расы, пола, религии, возраста и тому подобное. Банк не может напрямую использовать эти «защищенные признаки» в своих моделях. Но что, если модель использует другие, на первый взгляд нейтральные, признаки, которые сильно связаны с защищенными? Это явление называется прокси-дискриминацией.

Классический пример – редлайнинг. В середине XX века в США банки буквально обводили красной линией на карте районы, в которых в основном жили афроамериканцы, и отказывали в кредитах жителям этих районов. Сегодня прямой редлайнинг запрещен законом. Но что, если модель использует почтовый индекс? Если определенные почтовые индексы исторически связаны с определенной расовой или этнической группой, использование этого, казалось бы, нейтрального параметра может привести к тому же результату – систематическому отказу или завышенным ставкам для целой группы людей. Министерство юстиции США активно борется с такими практиками, добиваясь компенсаций на сотни миллионов долларов.

Другой яркий пример – дело Test-Achats в Европейском союзе. В 2011 году Суд ЕС постановил, что использование пола как фактора при расчете страховых взносов является дискриминацией и должно быть прекращено. До этого решения женщины платили меньше за автострахование (потому что статистически реже попадают в аварии), но больше за страхование жизни (потому что живут дольше). Суд решил, что индивидуальный риск должен оцениваться на основе индивидуальных данных (стиль вождения, состояние здоровья), а не на основе принадлежности к группе.

Модель вашего телефона, список установленных приложений (те, что работают "даже на парковке" и другие), манера печатать на клавиатуре – все это может быть прокси-признаками. Модель может выяснить, что люди, использующие определенную марку телефона, статистически чаще не выплачивают долги. И хотя марка телефона сама по себе не является защищаемым признаком, если она связана с доходом, а тот, в свою очередь, – с расой или социальным положением, мы снова получаем скрытую дискриминацию.

Изображение создано с помощью ChatGPT
Изображение создано с помощью ChatGPT

Внутри черного ящика: как модели учатся дискриминировать

Модели машинного обучения не становятся предвзятыми сами по себе. Они становятся ими, обучаясь на данных, которые показывают, как в обществе в целом есть неровности. Этот эффект известен как предвзятость данных (data bias).

Если в прошлом банк постоянно отказывал в кредитах определенной группе людей, то в исторических данных будет мало примеров «хороших» заемщиков из этой группы. Модель, обученная на таких данных, сделает, с ее точки зрения, разумный вывод: эта группа – рискованная. Алгоритм просто повторяет и усиливает прежнюю несправедливость.

Кроме того, появляется петля обратной связи (feedback loop). Модель предсказывает, что район X – рискованный. Банк перестает давать там кредиты. Экономическое положение в районе ухудшается, что ведет к увеличению реальных невыплат. Модель это видит и еще больше убеждается в своей правоте. Пророчество сбывается само и благодаря себе же.

Теоремы о невозможности: математика компромиссов

Проблема усугубляется тем, что различные определения «справедливости» часто математически несовместимы. Это доказывают так называемые «теоремы о невозможности» в сфере справедливого машинного обучения. Они показывают, что нельзя создать модель, которая одновременно отвечала бы нескольким, казалось бы, разумным критериям справедливости, за исключением совсем простых случаев.

Рассмотрим три популярных критерия:

  1. Демографический паритет: Доля положительных решений (выдача кредита) должна быть одинаковой для всех защищаемых групп (например, для мужчин и женщин). Проще говоря, если кредит получают 20% мужчин, то его должны получать и 20% женщин.

  2. Равенство возможностей: Доля правильно предсказанных положительных исходов (доля верно определенных положительных результатов) должна быть одинаковой для всех групп. То есть, из всех мужчин, которые действительно могут вернуть кредит, модель должна правильно определять такой же процент, как и для женщин.

    1. Равенство точности: Требует равенства возможностей и для положительных, и для отрицательных исходов (доля верно определенных положительных и ложно определенных положительных результатов должна быть одинаковой для всех групп).

Теорема, доказанная Джоном Клейнбергом и его коллегами, говорит, что если реальная доля людей, способных взять кредит, в группах разная, то невозможно одновременно выполнить даже два критерия из трех, если не считать случай идеально точного, на 100%, классификатора.

Выбор между этими показателями – не технический, а морально-политический вопрос. Что важнее: чтобы у всех были равные шансы получить кредит (демографический паритет) или чтобы модель одинаково хорошо работала для всех (равенство возможностей)? «Идеально справедливого» алгоритма не существует. Это всегда компромисс.

Заключение: на пути к ответственному AI

Оценка риска, усиленная мощью машинного обучения, обещала нам мир, в котором каждый платит справедливую цену за свой риск. Но на деле мы видим, что сложность и непрозрачность этих систем порождают новые формы дискриминации, которые сложнее заметить и оспорить.

Случаи с Ally Bank и Test-Achats показывают, что ни человеческий фактор, ни чисто математический подход не являются лекарством от всех болезней. Граница между персонализацией и дискриминацией тонкая. Когда алгоритм принимает решение, которое влияет на жизнь человека, кто за это отвечает? Разработчик, написавший код? Банк, который его использовал? Или общество, чьи предубеждения отразились в данных?

По мере того, как «черные ящики» становятся все сложнее, а их решения – все более важными, эти вопросы требуют не только технического, но и общественного ответа. Регуляторы по всему миру, включая ЕС со своим AI Act, стараются установить правила игры, требуя прозрачности, понятности и человеческого контроля над системами с высоким уровнем риска. Будущее справедливого кредитования зависит от того, сможем ли мы найти баланс между инновациями и ответственностью, помня, что за каждой строкой кода и каждым предсказанием модели стоит реальная человеческая судьба.