Численные методы обучения по прецедентам (практика, В.В. Стрижов)/Группа 474, весна 2018
Выбор моделей в задачах регрессии и классификации, лекции
Перед лекциями слушателям предлагается, по желанию, ответить на пять вопросов. Экзамен в конце семестра содержит 50 вопросов, длительность экзамена 1 час. Проверка - собеседование по записанным ответам.
Тема 1Выбор вероятностных моделей
- В.В. Стрижов. Связанный байесовский вывод
- David J C MacKay. 2014. Information theory, inference, and learning algorithms глава 28.
- Стрижов В.В. Функция ошибки в задачах восстановления регрессии // Заводская лаборатория. Диагностика материалов, 2013, 79(5) : 65-73.
Методы оптимизации параметров вероятностных моделей
- В.В. Стрижов. Методы оптимизации параметров вероятностных моделей
- Аппроксимация Лапласа глава 27.
- Kuznetsov M.P., Tokmakova A.A., Strijov V.V. Analytic and stochastic methods of structure parameter estimation // Informatica, 2016, 27(3) : 607-624.
Оптимизация параметров для выбора моделей глубокого обучения
- О.Ю. Бахтеев, В.В. Стрижов. Выбор моделей глубокого обучения cубоптимальной сложности // Автоматика и телемеханика, 2018.
- О.Ю. Бахтеев. Выбор моделей глубокого обучения cубоптимальной сложности.
- Volker Nannen. A Short Introduction to Model Selection, Kolmogorov Complexity and Minimum Description Length (MDL), 2013, see also [1].
- Peter Grunwald. A Tutorial Introduction to the Minimum Description Length Principle, 2004.
- Jorma Rissanen. Modeling by shortest data description // Automatica, 1978, 14(5): 465-471.
Выбор вероятностных моделей иерархической классификации
- А.А. Кузьмин. Иерархическая классификация коллекций документов, 2017, слайды.
- А.А. Кузьмин, В.В. Стрижов. Иерархическая классификация коллекции коротких текстов , 2017.
- Кузьмин А.А. Иерархические тематические модели крупных конференций // МФТИ, 2016, text, slides.
Правдоподобие модели. Построение мультимоделей и анализ пространства их параметров
- Адуенко А.А. Evidence: байесовский подход к выбору моделей // МФТИ, 2018,
- Адуенко А.А. Анализ пространства параметров в задаче выбора мультимоделей // МФТИ, 2016, slides.
- Зайцев А.А., Токмакова А.А., Стрижов В.В. Оценка гиперпараметров регрессионных моделей методом максимального правдоподобия // Информационные технологии, 2013, 2
Оптимизация гиперпараметров вероятностных моделей
Тема 7Вариационные оценки, вариационный автоэнкодер
- Роман Исаченко: Semi-supervised Learning with Deep Generative Models
- Аппроксимация, пояснение пояснение
- Auto-encoding variational bayes: https://arxiv.org/pdf/1312.6114.pdf
- Tutorial on Variational Autoencoders: https://arxiv.org/pdf/1606.05908.pdf
- Semi-supervised Learning with Deep Generative Models: https://arxiv.org/pdf/1406.5298.pdf
Построение, оптимизация и выбор мультимоделей
Тема 9Информативные априорные предположения в баейсовском мультимоделировании
Тема 10Оценка объема выборки с использованием байесовского подхода
- Мотренко А.А. Оценка необходимого объема выборки // МФТИ, 2016, text, text.
- Какие гипотезы принимаются при оценивании параметров линейной регрессивной модели методом наименьших квадратов?
- Какие гипотезы принимаются при назначении гиперпараметров?
- Включает ли функиця ошибки общего вида регуляризатор?
- Чем отличаются регуляризируемые слагаемые в случае нормального и мультиномиального распределения зависимой переменной?
- Что предпочтительнее при вычислении регуляризатора: сначала взвешивать параметры, а потом суммировать их квадраты или сначала суммировать квадраты, а потом взвешивать сумму?
- Чем отличаются наиболее вероятные параметры модели отличаются от наиболее правдоподобных и от оптимальных?
- Чем отличается наиболее правдоподобная выборка от наиболее правдоподобной модели?
- Как аппроксимация Лаплпса связывает разложение функции ошибки в ряд и предположение о нормальном распределении?
- Можно ли аппроксимацию параметров методом Лапласа выполнить в произвольной точке пространства параметров модели?
- Можно ли вычислить правдоподобие линейной модели аналитически?
- Почему процедура оценки гиперпараметров с помощью аппроксимации Лапласа не сходится за одну итерацию?
- Нужно ли оптимизировать параметры при вычислении правдоподобия модели?
- Какой уровень байесовского вывода используется при пополнении выборки в семплировании Метрополиса-Хастингса
- Какая операция вносит наибольшую сложность в оценку гиперпараметров методом кросс-валидации?
- Какой метод оценки гиперпараметров требует наибольшего числа итераций?
- Как зависит оптимальное правдоподобие модели от объема выборки?
- Какое априорное предположение о вероятности моделей может быть использовано при сравнении их правдоподобий в байесовском выводе второго уровня.
- Чем отличаются многоуровневые модели от смеси моделей и от смеси экспертов?
- Какие параметры оптимизирует алгоритм ЕМ при построении
- Чем отличается gating function от softmax в случае смеси экспертов?
- Назовите гипотезы и критерии оценивания оптимального объема выборки.
- Как связаны MDL и колмогоровская сложность?
- Как связаны Evidence и кросс-валидация?
- Как связаны нижняя оценка Evidence и MDL?
- Что такое бритва Оккама в задаче выбора модели?
- В каком случае нижняя оценка Evidence будет совпадать с Evidence?
- Как получить оценку начала переобучения без использования кросс-валидации?
- Что такое оператор оптимизации?
- Что такое гиперпараметры, в чем их отличие от параметров и структурных параметров?
- В каком случае оптимизация гиперпараметров градиентными методами работает лучше других методов?
- Привести формальную постановку задачи оптимизации гиперпараметров.
- Как свести двусвязный байесовский выбор модели к задаче оптимизации гиперпараметров?
- Какие существуют градиентные алгоритмов оптимизации гиперпараметров? В чем заключаются их основные идеи?
- В каком случае алгоритм DrMAD будет давать более предпочтительное по сравнению с альтернативами качество оптимизации?
- В чем заключается проблема оптимизации полной и диагональной матрицы ковариаций с использованием кросс-валидации?
- В каком случае случайный поиск более предпочтителен, чем градиентные методы оптимизации гиперпараметров?
- Какие преимущества и недостатки есть у l-1 и квадратичной регуляризации в линейной регрессии? Чему эквивалентно введение таких штрафов за сложность в байесовском смысле?
- Понятие обоснованности. Почему модель с наибольшим правдоподобием для некоторого значения параметра может оказаться хуже других по обоснованности?
- Пусть имеется дискретное множество моделей, из которых наблюдаемая выборка могла быть получена, и некоторый набор априорных вероятностей каждой из моделей. Как связана апостериорная вероятность модели с ее обоснованностью?
- Пусть имеется несколько нормально зашумленных копий одного признака с известными дисперсиями шумов, которые создают мультиколлинеарность. Что следует сделать с такой группой признаков для повышения качества классификации и избавления от мультиколлинеарности? В каком случае это будет эквивалентно выбору "лучшего" представителя такого набора?
- Понятие адекватной мультимодели. Чем плоха неадекватная мультимодель?
- Корректность сходства моделей. Предлагаемая корректная функция сходства и ее вид для пары нормальных распределений.
- Как можно использовать предлагаемую функцию сходства для решения задачи статистического сравнения пары моделей? Что реже встречается для пары совпадающих моделей: сходство 0.01 для n=2 или n=20 (n-размерность признакового пространства)?
- Как конвертировать метод сравнения пары моделей в метод прореживания мультимодели для построения адекватной мультимодели? Какие методы рассматривались на лекции и какие Вы могли бы предложить?
- Какую проблему помогает преодолеть вариационная аппроксимация?
- Какую оптимизационную задачу решает вариационный автокодировщик?
- Что такое reparametrization trick?
- Что такое оценивание Монте Карло и как оно применяется для вычисления градиента нижней вариационной оценки?
- Как учесть метки классов при построении вариационного автокодировщика?
- Как меняется вид оптимизируемой вариационной нижней оценки в случае semi-supervised learning?
- Выбор моделей Животовский
- GAN Попова
- Мультиколлинеарность, байесовский Беллсли Катруца
Постановка задач в машинном обучении, практические занятия
Курс посвящен технике изложения основной идеи исследования. Обсуждаются постановки задач выбора моделей и способы построения функции ошибки. Обсуждение ведется в формате эссе. Эссе — это изложение идеи постановки и решения задачи. Изложение должно быть достаточно полным (идея восстанавливается однозначно), но кратким (полстраницы) и ясным. Задача ставится формально, желательно использование языка теории множеств, алгебры, матстатистики. Желательно ставить задачу в формате argmin. Пишется в свободной форме, с учетом нашего стиля выполнения научных работ: терминологическая точность и единство обозначений приветствуются[2]. Желательно приводить решение задачи в краткой форме. Обсуждаются эссе слушателей, которые лично присутствуют на занятии и могут прокомментировать задачу. Продолжительность доклада 3 минуты. Для доклада необходимо загрузить эссе в репозиторий и поставить ссылку в таблицу. Оценка выставляется за устный доклад: A или Z баллов.
Эссе хранятся в личной папке Group374/Surname2017Essays/. В папке этого примера есть шаблон эссе. Ссылка на эссе делается по шаблону