Обучающего множества



Для таких неформализуемых задач частичным описанием алгоритма является некое подмножеством полной таблицы преобразований - множество примеров, или обучающее множество. Возникает новый класс задач - восстановления алгоритма по набору примеров, обучения на примерах.

Прежде всего, для любого из перечисленных методов необходимо определить критерий оптимальной сложности сети - эмпирический метод оценки ошибки обобщения. Поскольку ошибка обобщения определена для данных, которые не входят в обучающее множество, очевидным решением проблемы служит разделение всех имеющихся в нашем распоряжении данных на два множества: обучающее - на котором подбираются конкретные значения весов. и валидационного - на котором оценивается предсказательные способности сети и выбирается оптимальная сложность модели. На самом деле, должно быть еще и третье - тестовое множество, которое вообще не влияет на обучение и используется лишь для оценки предсказательных возможностей уже обученной сети.

Используем все обучающее множество примеров 5" для конструирования модели MR распределения входных векторов, достигающих узла R.

Каждое из них может интерпретироваться как обучающая пара для многослойного персептрона. При этом, условие (х есть Д) определяет значение входа, а следствие (у есть 6,-) - значение выхода сети. Полное обучающее множество имеет вид (Д,Д),...,(АП,ВП)}. Заметим, что

Основная идея ВР состоит в том, чтобы вычислять чувствительность ошибки сети к изменениям весов. Для этого нужно вычислить частные производные от ошибки по весам. Пусть обучающее множество состоит из Р образцов, и входы fc-ro образца обозначены че-

стой задаче двоичной классификации на одном нейроне гиперплоскость может много раз колебаться вокруг своего оптимального положения, пока алгоритм будет обрабатывать поочередно образцы из разных классов. От этого явления несложно избавиться, взяв суммарное изменение весов после ряда примеров. Такой прием называется пакетной обработкой. Цель ее состоит в том, чтобы вычислять усредненное изменение весов. Очевидно, «эпохальный» вариант ВР представляет собой ту же пакетную обработку, где пакетом является все обучающее множество. Если в начале действия алгоритма брать небольшие пакеты, а затем увеличивать их объем вплоть до общего количества примеров в обучающем множестве, то этим будет сэкономлено время вычислений, но, тем не менее, обеспечена сходимость к глобальному решению. Особенно заметным этот эффект будет, если общее количество примеров очень велико или их размерность большая.

Другой способ избавиться от переобучения заключается в том, чтобы измерить ошибку сети на некотором множестве примеров из базы данных, не включенных в обучающее множество, — подтверждающем множестве. Ухудшение характеристик сети при работе с этим множеством указывает на возможное переобучение. Наоборот, если характеристики улучшаются, это значит, что обучение продолжается. Таким образом, переобучение можно обнаружить, наблюдая за тем, насколько последовательно уменьшается ошибка во время обучения сети. В любом реальном (не смоделированном на компьютере) приложении нужно использовать подтверждающее множество, так как уровень шума заранее не известен.

Исходное обучающее множество

сети на образцах, не входивших в обучающее множество, составил 0.0281, что существенно ниже, чем соответствующая ошибка регрессии 0.2112. Представляется, что, в отличие от регрессии, сеть довольно хорошо уловила сложную структуру фазового портрета. Это отчетливо видно на рис. 3.12. Хорошие показатели сети станут еще виднее, если мы вычислим истинное и прогнозируемое сетью относительные изменения (R) величины у за один шаг. На рис. 3.13 изображено совместное распределение этих двух величин.

Нейронная модель показывает лучшие результаты, чем ARIMA и OLS-регрессия как на обучающих, так и на новых данных. При этом, однако, из-за небольшого объема базы данных не удается применить полноценное подтверждающее множество, и поэтому обучающее множество было оптимизировано по отношению к тестовому множеству.

Вся совокупность данных была разбита на три множества: обучающее, подтверждающее и тестовое. Так как историческая вола-тильность вычислялась по принципу движущегося окна размером в 15 торговых дней, обучающее множество охватывает промежуток времени с 11 февраля (вторник) до 13 марта (пятница) 1992г. и включает в себя 24 рабочих дня и 2784 наблюдений (29 15-минутных периодов в день и 4 цены исполнения). Из них 300 наблюдений были выделены в подтверждающее множество. Перед тем, как это сделать, мы перемешали все 2784 записи, чтобы устранить аспект, связанный с временными рядами. Для того чтобы избежать эффектов дня и недели исполнения, мы взяли для тестов промежуток с 16 марта (понедельник) по 3 апреля (пятницы), и, таким образом, до исполнения (16 апреля) оставалось еще достаточно времени. На эти 15 дней торгов приходилось 1740 наблюдений.


Особое место в распознавании объектов и ситуаций занимают методы, основанные на нечетком и лингвистическом подходах. Нечеткими могут быть метки, указывающие принадлежность объектов обучающего множества к соответствующим классам. Возможно также размытие классификационных признаков. Признаками классификации могут служить непроизводные элементы и отношения между ними, наиболее эффективно описываемые при использовании лингвистического подхода.

Дискретный аналог обучающего множества правил (заменяющее функциональное) имеет вид:

Другой возможный метод носит название стохастического градиентного. В нем веса пересчитываются после каждого просчета всех примеров из одного обучающего множества, и при- этом используется частичная функция стоимости, соответствующая этому, например, fc-му, множеству:

Данный алгоритм используется в двух вариантах. В стохастическом варианте веса пересчитываются каждый раз после просчета очередного образца, а в «эпохальном», или off-line варианте, веса меняются после просчета всего обучающего множества.

Подобные правила рассчитаны на то, чтобы сеть начинала свою работу в линейном режиме и притом не на плоской части поверхности невязок. Однако нет гарантии, что такое начальное приближение приведет к глобальному минимуму или уменьшит время сходимости. Были разработаны другие методы, дающие еще более хорошее начальное приближение с точки зрения уменьшения времени обучения и обладающие большей устойчивостью в смысле локальных минимумов. Так, Дено и Ланжель разработали метод инициализации весов по прототипам, полученным из обучающего множества^?]. Усовершенствованный классический метод выбора начальных значений использует данные анализа главных компонент, но для этого, безусловно, требуется меньше скрытых элементов, чем имеется входов [292]. При использовании обучающих алгоритмов типа ВР выбор начального приближения очень важен. Уже на этом шаге нужно позаботиться о том, чтобы не попасть в локальный минимум.

Для того чтобы обучающий алгоритм не стал двигаться в ложном направлении, нужно, прежде всего, упорядочить случайным образом последовательность примеров, которые он обрабатывает (так называемое «взбалтывание»). Это не так существенно для «эпохального» \ варианта ВР, но очень важно при стохастическом определении весов. Всякая программная реализация алгоритма типа ВР должна ^>хлю-чать в себя случайное упорядочение обучающего множества. Более \ того, если какой-то из классов примеров представлен недостаточно, 'I случайный выбор должен осуществляться таким образом, чтобы примеры из слабо представленной группы встречались чаще — этим будет устранен ложный крен при минимизации невязки. В гл. 8 читатель найдет иллюстрирующий пример.

Часто значение ц, волевым образом задается равным 0.9, безотносительно к специфике задачи и архитектуре сети. Нужно отметить, что метод импульса очень чувствителен к способу упорядочения примеров в обучающем множестве. Если подряд попалось несколько примеров из одного класса, импульс станет очень большим, и это нарушит ход процесса обучения. Сказанное еще раз свидетельствует о необходимости предварительного случайного упорядочения обучающего множества.

установил, что на сети с прямой связью, построенной из линейных пороговых функциональных элементов, можно получить правильные обобщения, если объем обучающего множества в несколько раз больше объема сети. Для многослойных сетей общего вида, построенных из сигмоидальных элементов, аналогичное утверждение не имеет места (см. [31]). ; t ,

Недостатком этого приема является уменьшение числа примеров, которые можно было бы взять в качестве обучающего множества. Малость базы данных— это серьезная проблема. Более того, оценка качества работы сети зависит от выбора образцов, составляющих подтверждающее множество. Даже при случайной выборке разные разбиения базы данных на обучающее и подтверждающее множества дают разные оценки. При исследовании этой проблемы Де Гроот [84] использовал для отбора примеров и построения обучающего и подтверждающего множеств алгоритмы кластеризации.

В методах другого типа — непараметрических — никаких предварительных предположений о плотности вероятности не требуется. В методе «k ближайших соседей»' (fcNN) вычисляется расстояние между вновь поступившим образцом и векторами обучающего множества, после чего образец относится к тому классу, к которому принадлежит большинство из k его ближайших соседей. В результате этого границы, разделяющие классы, получаются кусочно линейными. Ряд применений ШМ-метода будет рассмотрен в гл. 8. В различных модификациях этого метода используются различные меры расстояния и специальные приемы нахождения соседей. Иногда вместо самого

Обычно опробуется несколько конфигураций с различным числом элементов и структурой соединений. Одними из наиболее важных показателей являются объем обучающего множества и обеспечение способности к обобщению при дальнейшей работе, и нужного результата можно достичь на различных схемах. Чаще всего используются процедуры последовательного спуска (с подтверждающим множеством) или N-кратного перекрестного подтверждения. Могут быть применены и более мощные информационные критерии (1C): обобщенное перекрестное подтверждение (GCV), итоговая ошибка предсказания Акаике (FPE), критерии Байеса (BIC) и Акаике (AIC) (см. [103]). Для того чтобы улучшить способности к обобщению и устранить опасность переобучения, применяются также уменьшение весов и их исключение (прореживание дерева). При этом изменяется архитектура сети: удаляются некоторые связи и изучается, какое влияние они оказывали на эффективность. >,


Определенным категориям Определенным признакам Определенным временным Определенная взаимосвязь Определенной должности Обязанностей возложенных Определенной номенклатуры Определенной предметной Определенной социальной Общепринятым стандартам Определенной структуры Определенной величиной Определенное направление вывоз мусора снос зданий

Яндекс.Метрика