Collaborative filtering

Published

October 22, 2025

Я учусь по книге Jeremy Howard. Она сделана в виде jupyter notebooks. Начну с ноутбука про collaborative filtering. Оно работает следующим образом. Мы смотрим какие продукты пользователь лайкал, а затем смотрим на лайки пользователей, которые лайкали такие же продукты. Продукты, которые понравились этим пользователям, вероятно понравятся и нашему пользователю.

Это не обязательно продукты. Мы также можем работать с треками, статьями, фильмами, медицинскими диагнозами, поставленным врачами определённым пациентам.

Ключевая идея заключается в том, что признаки, по которым модель предлагает вам рекомендации скрыты. Например, вам нравится фантастика и современный российский кинематограф. У нас есть база из миллионов пользователей, которые ставили оценки фильмам. Мы не указываем напрямую, какие фильмы относятся к категории фантастики, но модель ведет себя так как будто знает, что такая категория существует. Она использует ее, не зная ее названия, а лишь через числовые представления (скрытые признаки).

В этом ноутбуке мы работаем в сабсетом MovieLens на 100к строк. Далее я с чистого листа применю изученный подход к датасету с русскими фильмами.