Численные методы обучения по прецедентам (практика, В.В. Стрижов)/Группа 474, весна 2018

Выбор моделей в задачах регрессии и классификации, лекции

Перед лекциями слушателям предлагается, по желанию, ответить на пять вопросов. Экзамен в конце семестра содержит 50 вопросов, длительность экзамена 1 час. Проверка - собеседование по записанным ответам.

Тема 1

Выбор вероятностных моделей

В.В. Стрижов. Связанный байесовский вывод
David J C MacKay. 2014. Information theory, inference, and learning algorithms глава 28.
Стрижов В.В. Функция ошибки в задачах восстановления регрессии // Заводская лаборатория. Диагностика материалов, 2013, 79(5) : 65-73.

Тема 2

Методы оптимизации параметров вероятностных моделей

В.В. Стрижов. Методы оптимизации параметров вероятностных моделей
Аппроксимация Лапласа глава 27.
Kuznetsov M.P., Tokmakova A.A., Strijov V.V. Analytic and stochastic methods of structure parameter estimation // Informatica, 2016, 27(3) : 607-624.

Тема 3

Оптимизация параметров для выбора моделей глубокого обучения

О.Ю. Бахтеев, В.В. Стрижов. Выбор моделей глубокого обучения cубоптимальной сложности // Автоматика и телемеханика, 2018.
О.Ю. Бахтеев. Выбор моделей глубокого обучения cубоптимальной сложности.
Volker Nannen. A Short Introduction to Model Selection, Kolmogorov Complexity and Minimum Description Length (MDL), 2013, see also [1].
Peter Grunwald. A Tutorial Introduction to the Minimum Description Length Principle, 2004.
Jorma Rissanen. Modeling by shortest data description // Automatica, 1978, 14(5): 465-471.

Тема 4

Выбор вероятностных моделей иерархической классификации

А.А. Кузьмин. Иерархическая классификация коллекций документов, 2017, слайды.
А.А. Кузьмин, В.В. Стрижов. Иерархическая классификация коллекции коротких текстов , 2017.
Кузьмин А.А. Иерархические тематические модели крупных конференций // МФТИ, 2016, text, slides.

Тема 5

Правдоподобие модели. Построение мультимоделей и анализ пространства их параметров

Адуенко А.А. Evidence: байесовский подход к выбору моделей // МФТИ, 2018,
Адуенко А.А. Анализ пространства параметров в задаче выбора мультимоделей // МФТИ, 2016, slides.
Зайцев А.А., Токмакова А.А., Стрижов В.В. Оценка гиперпараметров регрессионных моделей методом максимального правдоподобия // Информационные технологии, 2013, 2

Тема 6

Оптимизация гиперпараметров вероятностных моделей

Тема 7

Вариационные оценки, вариационный автоэнкодер

Роман Исаченко: Semi-supervised Learning with Deep Generative Models
Аппроксимация, пояснение пояснение
Auto-encoding variational bayes: https://arxiv.org/pdf/1312.6114.pdf
Tutorial on Variational Autoencoders: https://arxiv.org/pdf/1606.05908.pdf
Semi-supervised Learning with Deep Generative Models: https://arxiv.org/pdf/1406.5298.pdf

Тема 8

Построение, оптимизация и выбор мультимоделей

Тема 9

Информативные априорные предположения в баейсовском мультимоделировании

Тема 10

Оценка объема выборки с использованием байесовского подхода

Мотренко А.А. Оценка необходимого объема выборки // МФТИ, 2016, text, text.

Вопросы к экзамену

Какие гипотезы принимаются при оценивании параметров линейной регрессивной модели методом наименьших квадратов?
Какие гипотезы принимаются при назначении гиперпараметров?
Включает ли функиця ошибки общего вида регуляризатор?
Чем отличаются регуляризируемые слагаемые в случае нормального и мультиномиального распределения зависимой переменной?
Что предпочтительнее при вычислении регуляризатора: сначала взвешивать параметры, а потом суммировать их квадраты или сначала суммировать квадраты, а потом взвешивать сумму?
Чем отличаются наиболее вероятные параметры модели отличаются от наиболее правдоподобных и от оптимальных?
Чем отличается наиболее правдоподобная выборка от наиболее правдоподобной модели?
Как аппроксимация Лаплпса связывает разложение функции ошибки в ряд и предположение о нормальном распределении?
Можно ли аппроксимацию параметров методом Лапласа выполнить в произвольной точке пространства параметров модели?
Можно ли вычислить правдоподобие линейной модели аналитически?
Почему процедура оценки гиперпараметров с помощью аппроксимации Лапласа не сходится за одну итерацию?
Нужно ли оптимизировать параметры при вычислении правдоподобия модели?
Какой уровень байесовского вывода используется при пополнении выборки в семплировании Метрополиса-Хастингса
Какая операция вносит наибольшую сложность в оценку гиперпараметров методом кросс-валидации?
Какой метод оценки гиперпараметров требует наибольшего числа итераций?
Как зависит оптимальное правдоподобие модели от объема выборки?
Какое априорное предположение о вероятности моделей может быть использовано при сравнении их правдоподобий в байесовском выводе второго уровня.
Чем отличаются многоуровневые модели от смеси моделей и от смеси экспертов?
Какие параметры оптимизирует алгоритм ЕМ при построении
Чем отличается gating function от softmax в случае смеси экспертов?
Назовите гипотезы и критерии оценивания оптимального объема выборки.
Как связаны MDL и колмогоровская сложность?
Как связаны Evidence и кросс-валидация?
Как связаны нижняя оценка Evidence и MDL?
Что такое бритва Оккама в задаче выбора модели?
В каком случае нижняя оценка Evidence будет совпадать с Evidence?
Как получить оценку начала переобучения без использования кросс-валидации?
Что такое оператор оптимизации?
Что такое гиперпараметры, в чем их отличие от параметров и структурных параметров?
В каком случае оптимизация гиперпараметров градиентными методами работает лучше других методов?
Привести формальную постановку задачи оптимизации гиперпараметров.
Как свести двусвязный байесовский выбор модели к задаче оптимизации гиперпараметров?
Какие существуют градиентные алгоритмов оптимизации гиперпараметров? В чем заключаются их основные идеи?
В каком случае алгоритм DrMAD будет давать более предпочтительное по сравнению с альтернативами качество оптимизации?
В чем заключается проблема оптимизации полной и диагональной матрицы ковариаций с использованием кросс-валидации?
В каком случае случайный поиск более предпочтителен, чем градиентные методы оптимизации гиперпараметров?
Какие преимущества и недостатки есть у l-1 и квадратичной регуляризации в линейной регрессии? Чему эквивалентно введение таких штрафов за сложность в байесовском смысле?
Понятие обоснованности. Почему модель с наибольшим правдоподобием для некоторого значения параметра может оказаться хуже других по обоснованности?
Пусть имеется дискретное множество моделей, из которых наблюдаемая выборка могла быть получена, и некоторый набор априорных вероятностей каждой из моделей. Как связана апостериорная вероятность модели с ее обоснованностью?
Пусть имеется несколько нормально зашумленных копий одного признака с известными дисперсиями шумов, которые создают мультиколлинеарность. Что следует сделать с такой группой признаков для повышения качества классификации и избавления от мультиколлинеарности? В каком случае это будет эквивалентно выбору "лучшего" представителя такого набора?
Понятие адекватной мультимодели. Чем плоха неадекватная мультимодель?
Корректность сходства моделей. Предлагаемая корректная функция сходства и ее вид для пары нормальных распределений.
Как можно использовать предлагаемую функцию сходства для решения задачи статистического сравнения пары моделей? Что реже встречается для пары совпадающих моделей: сходство 0.01 для n=2 или n=20 (n-размерность признакового пространства)?
Как конвертировать метод сравнения пары моделей в метод прореживания мультимодели для построения адекватной мультимодели? Какие методы рассматривались на лекции и какие Вы могли бы предложить?
Какую проблему помогает преодолеть вариационная аппроксимация?
Какую оптимизационную задачу решает вариационный автокодировщик?
Что такое reparametrization trick?
Что такое оценивание Монте Карло и как оно применяется для вычисления градиента нижней вариационной оценки?
Как учесть метки классов при построении вариационного автокодировщика?
Как меняется вид оптимизируемой вариационной нижней оценки в случае semi-supervised learning?

Дополнительные темы

Выбор моделей Животовский
GAN Попова
Мультиколлинеарность, байесовский Беллсли Катруца

Постановка задач в машинном обучении, практические занятия

Курс посвящен технике изложения основной идеи исследования. Обсуждаются постановки задач выбора моделей и способы построения функции ошибки. Обсуждение ведется в формате эссе. Эссе — это изложение идеи постановки и решения задачи. Изложение должно быть достаточно полным (идея восстанавливается однозначно), но кратким (полстраницы) и ясным. Задача ставится формально, желательно использование языка теории множеств, алгебры, матстатистики. Желательно ставить задачу в формате argmin. Пишется в свободной форме, с учетом нашего стиля выполнения научных работ: терминологическая точность и единство обозначений приветствуются[2]. Желательно приводить решение задачи в краткой форме. Обсуждаются эссе слушателей, которые лично присутствуют на занятии и могут прокомментировать задачу. Продолжительность доклада 3 минуты. Для доклада необходимо загрузить эссе в репозиторий и поставить ссылку в таблицу. Оценка выставляется за устный доклад: A или Z баллов.

Эссе хранятся в личной папке Group374/Surname2017Essays/. В папке этого примера есть шаблон эссе. Ссылка на эссе делается по шаблону

📎📎📎📎📎📎📎📎📎📎