💼 Спонсор публикации: криптовалютная биржа Exmo >>>
До сих пор мы ограничивали наше внимание одноразовыми играми, то есть играми, в которых стратегические интересы игроков не выходят за пределы конечных узлов их единственного взаимодействия. Однако, в игры часто играют с мыслями и "прикидками" о будущих новых играх, и это может существенно изменять результаты и стратегии равновесия.
Тема этой публикации - повторяющиеся игры, то есть игры, в которых группы игроков ожидают столкнуться друг с другом в одинаковых ситуациях несколько раз. Сначала рассмотрим их через ограниченный контекст повторяющейся "дилеммы заключенного".
Мы видели, что в одноразовой Дилемме заключённого единственное Равновесие Нэша - это взаимное предательство. Однако, это может перестать быть актуальным, если игроки ожидают снова встретиться друг с другом в будущих ДЗ.
Представьте себе, что четыре фирмы, производящие виджеты, соглашаются поддерживать высокие цены, совместно ограничивая предложение (то есть они образуют картель).
Это будет работать только в том случае, если каждая фирма будет поддерживать согласованную квоту производства. Но, как правило, каждая фирма может максимизировать свою прибыль, отклоняясь от своей квоты, в то время как другие соблюдают свою, поскольку так она продаёт больше единиц по более высокой рыночной цене, вызванной договорённостью картеля. В одном из вариантов вообще все фирмы разделят этот стимул к нарушению договора, и картель немедленно развалится. Тем не менее, компании рассчитывают, что в течение длительного периода они будут соревноваться друг с другом. В этом случае каждая фирма знает, что, если она нарушит картельное соглашение, другие смогут наказать её, демпингуя её на более долгий период, достаточный для того, чтобы более чем нивелировать полученную краткосрочную выгоду. Конечно, карающие фирмы тоже понесут краткосрочные убытки в период заниженных цен. Но эти убытки могут стоить того, если они служат цели восстановления картеля и установления максимальных долгосрочных цен.
Одна простая и известная (но не обязательно оптимальная) стратегия сохранения сотрудничества в повторяющихся ДЗ называется "око за око". Эта стратегия предписывает каждому игроку вести себя следующим образом:
- 1: Всегда сотрудничайте и поступайте честно в первом раунде.
- 2: Во втором раунде Вам допустимо выполнять все те действия, которые Ваш оппонент предпринял в отношении Вас в первом раунде.
Группа игроков, играющих по стратегии "око за око", никогда не увидит особых подвижек. Поскольку в обществе, в котором все действуют по принципу "око за око", стратегия "око за око" является рациональной реакцией для каждого игрока, она становится Равновесием Нэша. Можно часто слышать, как люди, которые немного (но недостаточно!) разбираются в Теории игр, говорят, как будто на этом можно подводить конец всей истории. Но это не так.
При обыгрывании повторяющейся Дилеммы заключённого есть две сложности. Во-первых, игроки должны не знать, когда их взаимодействие закончится. Предположим, игроки знают, когда наступит последний раунд. В этом раунде нарушение правил игроками будет максимизировать полезность, поскольку наказание станет невозможным. Теперь рассмотрим предпоследний тур. В этом раунде игрокам также не грозит наказание за нарушение договорённости, так как они все в равной степени ожидают этого друг от друга в последнем раунде. Таким образом, они будут проигрывать уже в предпоследнем раунде. Но это означает, что им не грозит наказание в третьем, последнем раунде, да и добравшись до него они попроигрывают с такой стратегией. Мы можем просто повторять это в обратном порядке по древу игры, пока не дойдём до первого раунда. Поскольку сотрудничество не является стратегией РН в этом раунде, "око за око" больше не является стратегией РН в повторяющейся игре, и мы получаем тот же результат - взаимное предательство - как и в одноразовой ДЗ. Следовательно, сотрудничество возможно только в повторяющихся Дилеммах заключённого, где ожидаемое количество повторений не известно (конечно, это относится ко многим реальным играм, а также к самой жизни). Обратите внимание, что в этом контексте любая неопределённость в ожиданиях или возможность "слабых рук" будут способствовать сотрудничеству, по крайней мере, на некоторое время. Когда люди в экспериментах повторяют ДЗ с известными конечными точками, они действительно имеют тенденцию некоторое время сотрудничать, но по мере накопления опыта учатся отступать от сотрудничества раньше.
Теперь введём вторую сложность. Предположим, что способность игроков отличать предательство от сотрудничества несовершенная. Рассмотрим наш случай картеля виджетов. Предположим, игроки наблюдают падение рыночной цены на виджеты. Возможно, это потому, что один член картеля обманул остальных. Или, возможно, это результат внешнего падения спроса. Если игроки, придерживающиеся принципа "око за око", ошибочно принимают второй случай за первый, они все нарушат договор, тем самым вызывая цепную реакцию взаимных нарушений, от которой картель уже никогда не сможет оправиться, поскольку каждый игрок ответит на первый случай нарушения договора - встречным нарушением, тем самым порождая новые нарушения, и так далее.
Если игроки знают, что такое недопонимание возможно, у них есть стимул прибегать к более изощрённым стратегиям. В частности, они могут быть готовы иногда рисковать после нарушения правил, идя на сотрудничество с нарушителем, чтобы проверить свои выводы. Однако, если они слишком снисходительны, другие игроки могут использовать их, совершив дополнительные отступления. В общем, у сложных стратегий есть проблема. Поскольку другим игрокам труднее сделать вывод о сути ситуации, использование сложных стратегий увеличивает вероятность недопонимания. И недопонимание - вот что в первую очередь приводит к нарушению кооперативного равновесия в повторяющейся игре. Сложности, связанные с передачей информационных сигналов, скринингом и логических выводов в повторяющихся ДЗ, помогают интуитивно объяснить народную теорему, названную так потому, что никто не уверен, кто её первым сформулировал:
В повторяющихся ДЗ для любой стратегии S существует возможное распределение стратегий среди других игроков так, что вектор S и этих других стратегий является Равновесием Нэша. Таким образом, в конце концов, стратегия "око за око" оказывается не особенно конструктивной.
В жизни реальные, сложные, социальные и политические драмы редко бывают прямыми инстанциями простых игр, таких как Дилемма заключённого. Hardin (1995) предлагает анализ двух трагически реальных политических случаев, гражданской войны в Югославии 1991–1995 г., и геноцида в Руанде в 1994 году, как ДЗ, которые были вложены в координационные игры.
Координирующая игра возникает всякий раз, когда полезность двух или более игроков максимизируется за счёт того, что они делают то же самое, что и напарник, и когда такое соответствие для них важнее, чем то, что, в частности, они оба делают. Стандартный пример возникает с правилами дорожного движения: "Всё движение слева" и "Всё движение справа" - оба результата, которые являются РН, и ни один из них не является более эффективным, чем другой. В играх с "чистой" координацией не помогает даже использование более избирательных критериев равновесия. Например, предположим, что мы требуем от игроков рассуждать в соответствии с правилом Байеса. В этих обстоятельствах любая стратегия, которая является лучшим ответом на любой вектор смешанных стратегий, доступных в РН, считается рациональной. Таким образом, игрок может найти набор систем убеждений для других игроков, так что любая история игры на пути равновесия согласована с этим набором систем. Чисто координационные игры характеризуются неуникальными векторами рационализируемых стратегий. Нобелевский лауреат Томас Шеллинг (1978) предположил и эмпирически продемонстрировал, что в таких ситуациях игроки могут пытаться предсказать равновесие, ища точки фокуса, то есть особенности некоторых стратегий, которые, по их мнению, будут важны для других игроков, веря, что другие игроки считают их выдающимися. Например, если два человека хотят встретиться в определенный день в большом городе, но не могут связаться друг с другом, чтобы договориться о конкретном времени и месте, оба могут разумно пойти в полдень на самую известную площадь в центре города. В целом, чем лучше игроки знают друг друга или чем чаще им удавалось наблюдать за стратегическим поведением друг друга, тем выше вероятность, что им удастся найти точки сосредоточения для координации.
Координация была действительно первой темой теоретико-игрового приложения, привлекшей всеобщее внимание философов. В 1969 году философ Дэвид Льюис опубликовал Конвенцию, в которой концептуальная основа Теории игр была применена к одному из фундаментальных вопросов эпистемологии двадцатого века: природе и степени условностей, управляющих семантикой, и их отношениям к обоснованию пропозициональных убеждений. Основное понимание можно получить на простом примере. Слово "курица" обозначает курицу, а "страус" - страуса. Нам не было бы лучше или хуже, если бы слово "курица" означала страуса, а слово "страус" - курицу; однако, нам было бы хуже, если бы половина из нас использовала пару слов в первом смысле, а другая половина - во втором, или если бы все мы случайным образом выбирали между ними, чтобы обозначить нелетающих птиц в целом. Это понимание, конечно, существовало задолго до Льюиса; но он объяснил, что эта ситуация имеет логическую форму координационной игры. Таким образом, хотя конкретные соглашения могут быть произвольными, интерактивные структуры, которые их стабилизируют и поддерживают - нет. Более того, равновесия, участвующие в согласовании значений существительных, по-видимому, имеют произвольный элемент только потому, что мы не можем ранжировать их по Парето; но Милликен (1984) неявно показывает, что в этом отношении они нетипичны для лингвистической координации. Они определённо нетипичны для согласования соглашений в целом, и в этом вопросе Льюис был введён в заблуждение, переоценив "семантические интуиции" и значение условности.
Росс и ЛаКасс (1995) представляют следующий пример реальной координационной игры, в которой РН не безразлично по Парето, но более часто наблюдаются РН, подчинённые Парето. В городе водители должны согласовывать своё поведение на светофоре на одном из двух РН. Либо все должны следовать стратегии спешки, чтобы попытаться проскочить на жёлтый свет, и делать паузу перед продолжением, когда красный свет меняется на зелёный, либо все должны следовать стратегии замедления на жёлтом и немедленно стартовать при переключении на зелёный. Обе модели являются РН, в том смысле, что, как только сообщество согласовало один из них, ни у кого нет стимула отклоняться: нарушая равновесие, и пытаясь проскочить на жёлтый с одной стороны, водитель рискует столкнуться с теми, кто движется в рамках иного принципа равновесия с другой. Следовательно, как только структура движения в городе установится на одном из равновесий, оно, как правило, останется таким. И действительно, это две модели, которые наблюдаются в городах мира. Однако эти два равновесия не безразличны к Парето, поскольку второе РН позволяет большему количеству автомобилей поворачивать налево на каждом цикле в юрисдикции с левосторонним движением (и вправо на каждом цикле в юрисдикции с правосторонним движением), что снижает основную причину заторов и устраняет узкие места в городских дорожных сетях, позволяя всем водителям рассчитывать на большую эффективность передвижения. К сожалению, по причинам, о которых мы можем только догадываться в ожидании дальнейшей эмпирической работы и анализа, гораздо больше городов привязано к низшему по Парето РН, чем к высшему по Парето (т.е. к стремлению проскочить на жёлтый свет). Теория условных игр предоставляет многообещающие ресурсы для моделирования таких случаев, как этот, в котором поддержание равновесия в координационных играх, вероятно, должно поддерживаться стабильными социальными нормами, поскольку игроки анонимны и имеют регулярные возможности для получения разовых преимуществ, отказавшись от поддержки преобладающего равновесия. Изучение этого в настоящее время продолжается.
Соглашения о стандартах доказательности и научной рациональности, темы из философии науки, которые создают контекст для анализа Льюиса, вероятно, будут иметь ранжируемый по Парето характер. В то время как различные схемы могут быть РН в социальной игре в науку, как любят нам напоминать последователи Томаса Куна, крайне маловероятно, чтобы все они лежали на одной кривой Парето. Эти темы, широко представленные в современной эпистемологии, философии науки и философии языка, по крайней мере, являются неявными приложениями Теории игр (читатель может найти широкий выбор приложений, а также ссылки на обширную литературу по теме, в книге R.Nozick "Загадки Сократа" (1998 г.)).
Большинство социальных и политических координационных игр, в которые играют люди, также имеют особенность неявного приложения Теории игр. К сожалению для всех нас, ловушки неэффективности, представленные неполноценным по Парето Равновесием Нэша, в них чрезвычайно распространены. И иногда такая динамика порождает самые ужасные из всех повторяющихся человеческих коллективных форм поведения. Анализ Хардином двух недавних эпизодов геноцида основан на идее о том, что биологически поверхностные свойства, с помощью которых люди разделяют себя на расовые и этнические группы, очень эффективно служат в качестве узловых точек в координационных играх, которые, в свою очередь, порождают смертельные частные разногласия между ними.
Согласно Хардину, ни югославские, ни руандийские бедствия изначально не были политическими инициативами. То есть, ни в одной из ситуаций, ни с одной стороны, большинство людей не начинали с того, что планировали уничтожение друг друга вместо взаимного сотрудничества. Однако смертоносная логика координации, сознательно поддерживаемая корыстными политиками, динамически создавала ДЗ. Некоторым отдельным сербам было рекомендовано воспринимать возможность наилучшего удовлетворения своих индивидуальных интересов через идентификацию с групповыми интересами всех сербов. То есть они обнаружили, что некоторые из их обстоятельств, например, связанные с конкуренцией за работу, имели форму координационных игр. В итоге, они действовали таким образом, чтобы создавать ситуации, в которых это верно и для других сербов. В конце концов, когда достаточное количество сербов отождествили личный интерес с групповым интересом, это отождествление стало почти универсально правильным, потому-что (1) самая важная цель для каждого серба заключалась в том, чтобы делать примерно то же, что и любой другой серб. И (2) наиболее характерным для сербов поступком, осуществление которого свидетельствовало о координации, было исключение хорватов. То есть стратегии, предполагающие такое исключительное поведение, были выбраны в результате наличия эффективных координационных центров. Эта ситуация привела к тому, что личный интерес отдельного хорвата, находившийся под угрозой, был наилучшим образом максимизирован путём координации на основе напористой групповой идентичности хорватов, что ещё больше усилило давление на сербов с целью координации. Обратите внимание, что мы не приходим к предположению, что именно сербы или именно хорваты первыми начали что-то; процесс мог бы быть (даже если он не был таким на самом деле) полностью взаимным. Но результат ужасен: сербы и хорваты казались всё более опасными друг для друга, объединяясь для самообороны, пока оба народа не посчитали необходимым упредить своих соперников и нанести удар до того, как ударят по ним. Если Хардин прав (и дело здесь не в том, чтобы утверждать, что он прав, а в том, чтобы указать на жизненную важность определения того, в какие игры на самом деле играют агенты), то простое присутствие внешнего игрока (НАТО?) могло изменить игру, ускорив анализ Гоббса, поскольку внешний игрок не мог угрожать ни одной из сторон чем-то худшим, чем то, чего они боялись получить друг от друга. Что было необходимо, так это перекалибровка оценок интересов, которая (возможно) произошла в Югославии, когда хорватская армия начала решительно побеждать, и в этот момент боснийские сербы решили, что их личным интересам / интересам группы лучше послужит прибытие миротворцев НАТО. Геноцид в Руанде также закончился военным решением, в данном случае победой одной стороны (но это стало семенем для самой смертоносной международной войны на земле, случившейся после 1945 года - войны в Конго 1998–2006 годов).
Конечно, это не тот случай, когда повторяющиеся игры приводят к катастрофам. Биологическая основа дружбы между людьми и дружбы человека с животными частично является функцией логики повторяющихся игр. Важность вознаграждений, достижимых посредством сотрудничества в будущих играх, приводит к тому, что те, кто ожидает взаимодействия в них, будут менее эгоистичными, чем подоплёка искушения, которое в противном случае поощрялось бы в текущих играх. Тот факт, что такое равновесие становится более стабильным благодаря обучению, придаёт дружбе логический характер накопленных инвестиций, в которые большинству людей доставляет большое удовольствие привносить сентиментальность. Кроме того, культивирование общих интересов и чувств создаёт сети координационных центров, вокруг которых может быть всё более и более облегчена координация.
📝 Богдан Карасёв, Scorum, 8 сентября 2020 г., на основе материалов Стэнфордского университета.
✅ Уникальность статьи 100% (RU).
🎲 Анонс следующей публикации по Теории игр:
Командное мышление и условные игры (материал будет опубликован в моём блоге между 10 и 17 сентября 2020 г.)
Комментарии