Поиск по сайту:

Сильные ученики против слабых учеников в ансамблевом обучении


Методы ансамблевого обучения принято описывать с точки зрения слабых и сильных учеников.

Например, мы можем захотеть построить сильного ученика на основе прогнозов многих слабых учеников. Фактически, это явная цель повышения класса алгоритмов ансамблевого обучения.

Хотя в целом мы можем описывать модели как слабые или сильные, эти термины имеют конкретное формальное определение и используются в качестве основы для важных выводов из области теории компьютерного обучения.

В этом уроке вы познакомитесь со слабыми и сильными учениками и их связью с ансамблевым обучением.

После завершения этого урока вы будете знать:

  • Слабые обучающиеся — это модели, которые работают немного лучше, чем случайное угадывание.
  • Сильные ученики — это модели, которые имеют сколь угодно высокую точность.
  • Слабые и сильные обучающиеся являются инструментами теории вычислительного обучения и обеспечивают основу для разработки класса повышающих ансамблевых методов.

Начните свой проект с моей новой книги «Алгоритмы ансамблевого обучения с помощью Python», включающей пошаговые руководства и файлы исходного кода Python для все примеры.

Давайте начнем.

Обзор руководства

Этот урок разделен на три части; они есть:

  1. Слабые ученики
  2. Сильные ученики
  3. Слабые и сильные ученики и повышение квалификации

Слабые ученики

Слабый классификатор — это модель двоичной классификации, которая работает немного лучше, чем случайное угадывание.

Слабый ученик создает классификатор, который лишь немного более точен, чем случайная классификация.

- Страница 21, Классификация шаблонов с использованием ансамблевых методов, 2010.

Это означает, что модель будет делать прогнозы, которые, как известно, требуют определенных навыков, например. сделать возможности модели слабыми, но не настолько слабыми, чтобы у модели не было навыков, например. работает хуже, чем рандом.

  • Слабый классификатор. Формально это классификатор, точность которого чуть выше 50 процентов.

Слабый классификатор иногда называют «слабым обучающимся» или «базовым обучающимся», и эту концепцию можно обобщить, выйдя за рамки двоичной классификации.

Хотя концепция слабого обучающегося хорошо понимается в контексте бинарной классификации, в просторечии ее можно понимать как любую модель, которая работает немного лучше, чем наивный метод прогнозирования. В этом смысле это полезный инструмент для размышлений о возможностях классификаторов и составе ансамблей.

  • Слабый ученик: в разговорной речи это модель, которая работает немного лучше, чем наивная модель.

Более формально, это понятие было обобщено на многоклассовую классификацию и имеет другое значение, выходящее за пределы точности, превышающей 50 процентов.

Что касается бинарной классификации, хорошо известно, что точное требование к слабым ученикам — быть лучше, чем случайное предположение. […] Обратите внимание, что требование, чтобы базовые ученики были лучше, чем случайное предположение, слишком слабое для задач с несколькими классами, но требование точности выше 50% является слишком строгим.

- Страница 46, Ансамблевые методы, 2012.

Он основан на формальной теории вычислительного обучения, которая предлагает класс методов обучения, которые обладают слабой обучаемостью, то есть работают лучше, чем случайное угадывание. Слабая обучаемость предлагается как упрощение более желательной сильной обучаемости, при которой обучаемость достигает произвольно хорошей точности классификации.

Более слабая модель обучаемости, называемая слабой обучаемостью, отменяет требование, чтобы учащийся мог достичь сколь угодно высокой точности; слабый алгоритм обучения должен выводить только гипотезу, которая работает немного лучше (за счет обратного полинома), чем случайное угадывание.

- Сила слабой обучаемости, 1990.

Это полезная концепция, поскольку ее часто используют для описания возможностей участников алгоритмов ансамблевого обучения. Например, иногда членов бутстреп-агрегации называют слабыми учениками, а не сильными, по крайней мере, в разговорном значении этого термина.

В частности, слабые ученики являются основой для повышения класса алгоритмов ансамблевого обучения.

Термин «повышение» относится к семейству алгоритмов, которые способны превращать слабых учащихся в сильных.

- Страница 23, Ансамблевые методы, 2012.

Наиболее часто используемым типом модели слабого обучения является дерево решений. Это связано с тем, что слабость дерева можно контролировать за счет глубины дерева во время строительства.

Самое слабое дерево решений состоит из одного узла, который принимает решение по одной входной переменной и выдает двоичный прогноз для задачи двоичной классификации. Обычно это называется «проблемой решения».

Здесь слабый классификатор — это просто «обрубок»: дерево классификации с двумя терминальными узлами.

- Страница 339, Элементы статистического обучения, 2016.

Он используется в качестве слабого ученика настолько часто, что «пень решения» и «слабый ученик» являются практически синонимами.

  • Пня решения: дерево решений с одним узлом, работающим с одной входной переменной, выходные данные которой позволяют напрямую прогнозировать.

Тем не менее, другие модели также можно настроить для слабого обучения.

Поскольку для повышения требуется слабый обучающийся, практически любой метод с настраиваемыми параметрами можно превратить в слабого обучающегося. Деревья, как оказалось, являются отличной основой для повышения…

- Страница 205, Прикладное прогнозное моделирование, 2013.

Хотя формально они не называются слабыми обучающимися, мы можем рассматривать следующие модели как кандидаты на слабое обучение:

  • k-ближайшие соседи, где k=1 работает с одной или подмножеством входных переменных.
  • Многослойный персептрон, в котором один узел работает с одной или подмножеством входных переменных.
  • Наивный Байес, работающий с одной входной переменной.

Теперь, когда мы знакомы со слабым учеником, давайте поближе посмотрим на сильных учеников.

Сильные ученики

Сильный классификатор — это модель двоичной классификации, которая работает с произвольной производительностью, намного лучше, чем случайное угадывание.

Класс понятий является обучаемым (или сильно изучаемым), если существует алгоритм с полиномиальным временем, который обеспечивает низкую ошибку с высокой достоверностью для всех понятий в классе.

- Сила слабой обучаемости, 1990.

Иногда это интерпретируется как идеальное мастерство в наборе обучающих или контрольных данных, хотя, скорее всего, это относится к модели «хорошей» или «полезно умелой».

  • Сильный классификатор. Формально это классификатор, обеспечивающий сколь угодно высокую точность.

Мы ищем сильные классификаторы для задач прогнозного моделирования. Целью проекта моделирования является разработка сильного классификатора, который дает в основном правильные прогнозы с высокой степенью достоверности.

Опять же, хотя концепция сильного классификатора хорошо понятна для бинарной классификации, ее можно обобщить и на другие типы задач, и мы можем интерпретировать эту концепцию менее формально как хорошо работающую модель, возможно, почти оптимальную.

  • Сильный ученик: в разговорной речи это модель, которая работает очень хорошо по сравнению с наивной моделью.

Мы пытаемся разработать надежную модель, подгоняя модель машинного обучения непосредственно к набору данных. Например, мы могли бы рассматривать следующие алгоритмы как методы подбора сильной модели в разговорном смысле, где гиперпараметры каждого метода настраиваются для целевой задачи:

  • Логистическая регрессия.
  • Машина опорных векторов.
  • k-Ближайшие соседи.

И многие другие методы, перечисленные в предыдущем разделе или с которыми вы, возможно, знакомы.

Мы ищем сильное обучение, и мы можем противопоставить их способности слабым ученикам, хотя мы также можем создать сильных учеников из слабых учеников.

Слабые и сильные ученики и повышение квалификации

Мы установили, что слабые ученики работают немного лучше, чем случайные, и что сильные ученики хороши или даже почти оптимальны, и именно последнее мы ищем в проекте прогнозного моделирования. .

В теории вычислительного обучения, в частности в обучении PAC, формальные классы слабой и сильной обучаемости были определены с открытым вопросом о том, эквивалентны ли они или нет.

Представленное здесь доказательство конструктивно; описан явный метод прямого преобразования слабого алгоритма обучения в алгоритм, достигающий произвольной точности. В конструкции используется фильтрация для изменения распределения примеров таким образом, чтобы заставить слабый алгоритм обучения сосредоточиться на более сложных для изучения частях распределения.

- Сила слабой обучаемости, 1990.

Позже выяснилось, что они действительно эквивалентны. Более того, сильный ученик может быть построен из множества слабых учеников, если это формально определено. Это послужило основой для повышения класса методов ансамблевого обучения.

Основной результат — доказательство, возможно, удивительной эквивалентности сильной и слабой обучаемости.

- Сила слабой обучаемости, 1990.

Хотя это теоретическое открытие было сделано, потребовались годы, прежде чем были разработаны первые жизнеспособные методы повышения, реализующие эту процедуру.

В частности, адаптивное повышение, называемое AdaBoost, было первым успешным методом повышения, позже приведшим к появлению большого количества методов, кульминацией которых сегодня стали очень успешные методы, такие как повышение градиента, и такие реализации, как экстремальное повышение градиента (XGBoost).

Ансамбли слабых учеников в основном изучались в сообществе машинного обучения. В этой теме исследователи часто работают со слабыми учениками и пытаются разработать мощные алгоритмы, позволяющие повысить производительность от слабых до сильных. Это направление работы привело к рождению известных ансамблевых методов, таких как AdaBoost, Бэггинг и т. д., а также к теоретическому пониманию того, почему и как слабые ученики могут быть повышены до сильных.

- Страница 16, Ансамблевые методы, 2012.

Как правило, цель улучшения ансамблей состоит в том, чтобы подготовить большое количество слабых учеников для решения задачи прогнозного обучения, а затем лучше всего объединить их, чтобы получить сильного ученика. Это хорошая цель, поскольку слабых учеников подготовить легко, но это нежелательно, а сильных учеников подготовить трудно, и они очень желательны.

Поскольку сильные обучающиеся желательны, но их трудно получить, а слабых обучающихся легко получить на реальной практике, этот результат открывает многообещающее направление создания сильных обучающихся с помощью ансамблевых методов.

- Страницы 16–17, Ансамблевые методы, 2012.

  • Слабый ученик: легко подготовиться, но нежелательно из-за низкого уровня навыков.
  • Сильный ученик: трудно подготовиться, но желательно из-за их высоких навыков.

Процедура, которая была найдена для достижения этой цели, заключается в последовательной разработке слабых учащихся и добавлении их в ансамбль, где каждый слабый обучающийся обучается таким образом, чтобы уделять больше внимания частям проблемной области, в которых предыдущие модели ошибались. Хотя все методы повышения следуют этой общей процедуре со специфическими различиями и оптимизациями, понятие слабых и сильных обучающихся является полезной концепцией в более общем смысле для машинного обучения и ансамблевого обучения.

Например, мы уже видели, как можно описать цель прогнозной модели — разработать надежную модель. Обычной практикой является оценка производительности модели по сравнению с базовой или наивной моделью, например, случайными прогнозами для бинарной классификации. Слабый обучающийся очень похож на наивную модель, хотя он немного умелый и использует минимум информации из предметной области, а не полностью наивный.

Учтите, что, хотя мы технически не создаем слабых учеников при начальной агрегации (пакетировании), что означает, что члены не являются пнями для принятия решений, мы стремимся создать более слабые деревья решений, чтобы составить ансамбль. Это часто достигается путем подгонки деревьев к выборочным подмножествам данных, а не обрезки деревьев, что позволяет им слегка переобучать обучающие данные.

Для классификации мы можем понять эффект упаковки с точки зрения консенсуса независимых слабых учеников.

- Страница 286, Элементы статистического обучения, 2016.

Оба изменения внесены для поиска менее коррелированных деревьев, но приводят к обучению более слабых, но, возможно, не слабых моделей для включения в ансамбль.

  • Бэггинг: явно тренирует более слабых (но не слабых) учеников.

Рассмотрим составное обобщение (наложение), которое обучает модель наилучшему сочетанию прогнозов из нескольких разных моделей, соответствующих одному и тому же набору обучающих данных. Каждая способствующая модель уровня 0, по сути, является сильным обучающимся, а модель мета-уровня 1 стремится создать более сильную модель путем объединения прогнозов сильных моделей.

  • Стекирование: явно объединяет прогнозы сильных учеников.

Смесь экспертов (MoE) работает аналогичным образом, обучая несколько сильных моделей (экспертов), которые объединяются в, как мы надеемся, более сильные модели с помощью метамодели, шлюзовой сети и метода прочесывания.

Смешение экспертов также можно рассматривать как алгоритм выбора классификатора, в котором отдельные классификаторы обучаются, чтобы стать экспертами в некоторой части пространства признаков. В таких условиях отдельные классификаторы действительно обучаются, чтобы стать экспертами, и, следовательно, обычно они не являются слабыми классификаторами.

— Страница 16, Ансамбль машинного обучения, 2012.

Это подчеркивает, что, хотя слабая и сильная обучаемость и обучающиеся являются важным теоретическим открытием и основой для улучшения, более обобщенные идеи этих классификаторов являются полезными инструментами для разработки и выбора ансамблевых методов.

Дальнейшее чтение

В этом разделе представлены дополнительные ресурсы по этой теме, если вы хотите углубиться в нее.

Статьи

  • Сила слабой обучаемости, 1990.

Книги

  • Классификация шаблонов с использованием ансамблевых методов, 2010.
  • Ансамблевые методы, 2012.
  • Ансамбль машинного обучения, 2012.
  • Ансамблевые методы интеллектуального анализа данных, 2010.
  • Элементы статистического обучения, 2016.
  • Прикладное прогнозное моделирование, 2013.

Статьи

  • Ансамблевое обучение, Википедия.
  • Бустинг (машинное обучение), Википедия.

Краткое содержание

В этом уроке вы познакомились со слабыми и сильными учениками и их связью с ансамблевым обучением.

В частности, вы узнали:

  • Слабые обучающиеся — это модели, которые работают немного лучше, чем случайное угадывание.
  • Сильные ученики — это модели, которые имеют сколь угодно высокую точность.
  • Слабые и сильные обучающиеся являются инструментами теории вычислительного обучения и обеспечивают основу для разработки класса повышающих ансамблевых методов.

У вас есть вопросы?
Задавайте свои вопросы в комментариях ниже, и я постараюсь ответить.

Статьи по данной тематике