Известно, что молодые люди более склонны к риску, чем взрослые. По одной из гипотез, это может быть связано с тем, что подростки используют различные (очень простых) алгоритмов обработки информации в связи с результатами своих действий. Эксперимент, проведенный британскими и итальянскими психологами и neuroeconomists, подтвердили эту гипотезу. Выяснилось, что подростки лучше взрослых на обучение опыт положительный, но значительно меньше их способности к обучению в минус. Кроме того, взрослым эффективно используются в имеющейся информации о том, что в результате альтернативного решения и подростков рассматривать только реальные результаты своих действий. Может быть, эти различия являются следствием того, что части мозга, ответственной за обучение на положительный опыт, созревает рано отделов, которые обеспечивают более сложные алгоритмы обучения.
С точки зрения нейробиологии, обучения положительные и отрицательные — процессы абсолютно разные. В первую очередь, ключевую роль играет «эмоциональная» подкорковых структур, таких, как прилежащее ядро), а вторая не обходится без участия отделов коры, связанных с сознательным контролем (дорзально и дорсолатеральной области префронтальной коры, островка, Ростральной части поясной коры).
С точки зрения алгоритмов для фундаментального изучения картина похожая: на положительном опыте учиться проще. Простой алгоритм обучения с подкреплением называется Q-обучения (Q-обучения) — оценивать результат решения на единой шкале, в зависимости от благоприятности исхода. Этот алгоритм требует понимания ситуации: для этого не нужно создавать модель реальности и учитывать контекст, в котором принимается решение. Из-за своей простоты, этот алгоритм обеспечивает обучение на положительном опыте более эффективными, чем негативные. Он никак не мог «понять», что в ситуации ноль очков так же хорошо, как в другой ситуации до точки (так, например, если в первом случае альтернатива-это потеря очков и второе получать ноль баллов). Результат оценивается по абсолютной шкале, где единица-это всегда лучше, чем ноль, и по этой причине решения, которые приносят в пункт, чтобы узнать больше надежный чем другие решения, позволяющие не потерять смысл.
Чтобы эффективно учиться, чтобы избежать проблем, необходимо более сложный расчет. Тут уже желательно, чтобы понять контекст задачи и оценивать результат не «вообще», а о том, что будет в данной конкретной ситуации в случае принятия альтернативного решения.
Группа британских и итальянских психологов и neuroeconomists опубликован в журнале Биохимия вычислительная Биология , результаты проснулся эксперимента, проливающих свет на механизмы обучения у подростков и взрослых. Гипотезы, которые проверяются авторами, заключалась в том, что склонность подростков к рискованному поведению из-за последующего развития тех частей мозга, которые необходимы для сложных алгоритмов обучения, и по этой причине, подростки полагаются в первую очередь на более примитивных, но прежде чем прийти к алгоритму близка к Q-обучения.
В эксперименте приняли участие 18 молодых людей (которым считается возраст 12-17 лет) и 20 взрослых (от 18 до 32 лет). Экспериментальная установка показана на рисунке 1. Каждый участник показывали пары букв, которые нужно было выбрать один. Персонажей было всего 8, и пара, соответственно, 4. В каждой паре один символ приносил удачу, с вероятностью 75%, а другой-с вероятностью 25%. Каждая пара символов соответствует одному из четырех «уровней», отличаются характером подкрепления (вознаграждения или наказания), и наличие дополнительной информации о том, какие результаты принесет альтернативный выбор. Эффективность обучения оценивается на основе частоты, с которой испытуемые выбирали «правильных» символов после тренировки.
Результаты подтвердили ожидания исследователей. Взрослые участники продемонстрировали одинаковую эффективность обучения положительные и отрицательные. После обучения они уверенно выбрали символ, который приносит одно очко, в паре с символом, который приносит нулевую точку, и в равной степени с верой, он выбрал символ, который приносит ноль очков, если с ним был символ, что все понял. У подростков, результаты обучения в этих двух ситуациях. В первом случае, когда выбор делается между 0 и 1, подростки научились делать правильный выбор, чем взрослые, и второй, когда пришлось выбирать между 0 и 1, то эффективность обучения молодых людей были гораздо ниже.
Кроме того, взрослые имеют выгоду от дополнительной информации о результатах альтернативных решений: дополнительную информацию о тренинг прошел успешно. Молодые люди были в состоянии использовать эти данные: эффективность обучения была такой же, в полной и неполной информации (Рис. 2).
Рис. 2. Увеличение частоты правильные решения в ходе обучения. По горизонтальной оси — Порядковый номер испытания (от 1 до 20, а каждая пара символов показаны 20 раз). По вертикальной оси — процент правильных решений. Слева молодежи (молодых людей), право взрослых (взрослых). Различные цвета указаны четыре «контекст»; цветовые обозначения те же, что на рис. 1 (зеленый: положительное подкрепление, неправильные; коричневый: отрицательное подкрепление, неправильные; сине-зеленый: положительное подкрепление, заполните информацию; фиолетовый: отрицательное подкрепление, подробная информация). Линии с затененных местах — экспериментальных данных ± стандартная ошибка; линии с доверительными интервалами результатов моделирования. Для имитации обучения молодых людей была использована наиболее простая модель 1 (см. рис. 3) для взрослых — самая сложная модель 3. Рисунок из статьи в обсуждение Биохимия вычислительная Биология
Авторы попытались интерпретировать полученные результаты в рамках концепции алгоритмов обучения. Для этой цели они выступили с тремя моделями в компьютере (Рис. 3). Первая модель соответствует простой Q-обучения. Вторая возможность также рассмотреть для получения дополнительных сведений о результатах альтернативной (не выбрано) решение доработать свои идеи на «ценности» этого решения. Третья модель, в дополнение к тому, что вы знаете, что как и первые две, использует данные о результатах двух решений для того, чтобы поставить прибыль в надлежащий контекст. Эта процедура позволяет алгоритм «понимает», что на нулевом этапе в ситуации, когда вы оказались под угрозой потери очков, это так же хорошо, как взять 1 очко в ситуации, когда альтернативой становится нулем очков.
Рис. 3. Три модели обучения, которые сравниваются с полученными результатами. Модель состоит из трех модулей. Первый из них (фактический модуль) отвечает на простой алгоритм обучения с подкреплением — Q-обучения. Он изменяет значение П(х, с) — «ценная» или «хорошее» решение, которое вы выберете с в положение с , в зависимости от получения результата Р(С). Второй модуль (модуль Мн) использует данные о результате, альтернативные (не выбрано) решений было уточнить значение p(х, у). Третий модуль (модуль контекстной) использует данные о результатах двух решений, некоторые (С) и пассивной (Ю) поставить выигрывает в надлежащем контексте, соотнося его с тем, что в принципе можно сделать в этой ситуации, с (В(х) — среднее значение из контекста, или среднее значение растворов С и у). Использование третьего модуля приводит к замене абсолютной оценкой по шкале выигрыша относительный. Эти три модуля, состоят из трех моделей. Первая модель включает в себя только модуль 1, второй модули 1 и 2, на третьей — из трех модулей. Рисунок из статьи в обсуждение Биохимия вычислительная Биология
Эти три модели были точно такие же сессии «обучение», как реальные участники эксперимента. Оказалось, что ход и исход образования для молодых людей, чтобы быть более точным, чтобы описать самое простое, первая модель (Q-обучения). Что касается взрослых, их обучение точно воспроизводятся самые сложные модели № 3.
Таким образом, полученные результаты находятся в соответствии с предположением, что подростки используют простой алгоритм обучения с подкреплением, в непосредственной близости от Q-обучения. Это объясняет, почему подростки учатся хуже отрицательного подкрепления, чем положительных. Взрослые используют более сложный алгоритм обучения, включение дополнительных модулей. Это позволяет, во-первых, использовать дополнительную информацию о стоимости не выбранного решения, а во-вторых, интерпретировать успехи в надлежащем контексте, отметив, что это не «вообще», по отношению к тому, что в принципе можно предпринять в этой ситуации. Из-за этого, взрослые учатся на опыте негативные, а также позитивные.
Упрощенный алгоритм обучения, характерные для подростков, согласуется с данными для последующего созревания мозга, необходимых для осуществления более сложных и эффективных алгоритмов. С другой стороны, использование детей и подростков этот простой алгоритм может иметь важное адаптивное значение. Очень правильно прокомментировал статью обсуждали в моем блоге молодая мать, видя, что если ее ребенок сразу перестал делать то, что он набивает шишки, он не будет ходить еще не научились.
Источник: Стефано Палминтери, Эмма Дж. Kilford, Джорджо Коричелли, Сара-Джейн Блэкмор. Развитие вычислительных армирования обучения в подростковом возрасте // Биохимия вычислительная Биология. В. 12. П. e1004953.
См. также:
1) склонностью к наркомании и азартным играм связана с неспособностью учиться на своих ошибках, «элементы», 10.12.2007.
2) Дофамин нейроны должны летать для того, чтобы учиться на ошибках, «элементы», 10.09.2012.
3) в «системе вознаграждения» найдены нейроны, возбуждаемые добрые чувства, «элементы», 10.02.2012.
4) мыши-мутанты не становятся зависимыми, «элементы», 26.05.2008.
Александр Марков