GTO戦略、純粋戦略、混合戦略について

みなさん、こんにちは!

 

てちろーと申します。

 

 みなさん、ポーカーやってらっしゃいますでしょうか?

 私は、最近座学を交えつつも、相変わらずハンドをプレイすることが楽しくて、プレイメインでやってます。

 

 もっとうまくなるためには座学メインでやる必要があるのは重々承知しているつもりなのですが、どうしても実際にプレーする方が楽しいですからね。目の前の欲求に負けて、成長スピードが遅くなってしまう日々です。

 

 前回までは5NLz奮闘記ということで、私の体験談をメインとした記事でした。今回は少し毛色が変わりまして、少しポーカーに関する真面目なお話を書きたいと思います。

 

ただし、この記事は、私が知っている知識や学んだ知識を皆さんに教えてあげるよーという記事ではございません。

 

 あくまで、自分が学んだことを文章として書くことで、より深く理解、整理するために書いてます。なので、間違ったことも平然と書いてありますし、100%自己満足のための記事なのでそれを踏まえて読んでいただけると幸いでございます。

 

GTO戦略について

 ポーカーを本格的に学ぶとなるとまず出てくるワードです。最近ではGTO Wizardを始めとする新しい解析ツールなどが出てきたことで、ポーカー界隈に急速に浸透してきた概念であり、誤った理解が広まりつつある概念だとも思っています。

 

 GTO(Game Theory Optimar:ゲーム理論最適)とナッシュ均衡はポーカーにおいては同義の言葉として使われており、ざっくり言うと、互いのプレイヤーが戦略を変更してもそれ以上期待値を上げることができない状態・あるいはその戦略の組み合わせのことを指します。

 

 ありきたりの例で申し訳ないのですが、じゃんけんを例にあげて説明してみます。 

 今、あなたの前にじゃんけんのプロがいるとします。彼はあなたが生まれてから今まで行ってきたじゃんけんのデータを分析して、あなたのじゃんけんの戦略の傾向を熟知しており、あなたの戦略に合わせて、より勝率の高い戦略に変えてくる猛者です。

 

 では、このじゃんけんのプロに対抗するために、我々がとるべき戦略はどのようなものでしょうか?

 

 

多くの人が無作為、つまり、ランダムに出すという戦略を思いついたと思います。

 

 

 正解です。グー、チョキ、パーをそれぞれ33%ずつの頻度になるように無作為に出す。これこそがGTOにあたります。こちらがランダムに出している限り、相手側はどのように戦略を変更しても勝率を上げることができません。

 つまりGTOを学ぶということは、じゃんけんにおいてはグー、チョキ、パーを33%ずつ均等に出す方法を学ぶということを意味します。近頃ではGTOを学ぶことで飛躍的に勝率や成績をあげることができるような風潮がありますが、それは間違いだと思います。なぜなら、GTOはあくまで相手に搾取されないための戦略の最終地点であり、相手から期待値を奪い取る戦略ではないからです。

 

 例えば、あなたの目の前にグーかパーしか出さない相手がいたとします。この時にあなたが勝率を高めるためにとるべき戦略は、当たり前ではありますがパーを出し続けることです。仮にGTO通りにランダムに出したとしても、当然パーを出し続ける戦略よりも勝率を上げることはできません。

 

 ちなみに、相手に合わせて自身の戦略を変更し、搾取することで期待値を上げる。これがいわゆるエクスプロイト戦略にあたります。

 

 GTO VS エクスプロイトという言葉を目にしたことがありますが、2つは反対概念ではないというのが私の持論です。じゃんけんで、グーを40%、チョキを20%、パーを40%の確率で出してくる相手に対する戦略を考えたときに、負ける可能性が少ないパーを多めに出す戦略が有効であることは感覚的にわかると思います。ではなぜあなたはそれがわかったのでしょうか?

 

 それはあなたが、グー、チョキ、パーを33%ずつ出すことがGTOであると感覚的に理解しているためです。感覚的に理解した情報をもとにパーを多めに出すというエクスプロイト戦略を組み立てたのです。

 

 つまり、何が言いたいことかというと、GTOを知らなければエクスプロイトはできません。エクスプロイトをするために、我々はGTOを学ぶのです。以上のような理由から、私はGTOとエクスプロイトは密接につながっていて、反対概念ではないと考えています。

②純粋戦略と混合戦略について

 純粋戦略とは同じ状況下において毎回同じアクションをとる戦略のことを指します。プリフロップでは多くのハンドが純粋戦略でプレーされます。あなたがUTG(ボタン)でAAが配られたら、毎回レイズするでしょう。100回やって100回レイズ。これが純粋戦略です。

 

 一方で、混合戦略は、ある状況下において複数の選択肢から特定の頻度に基づいてアクションを決定する戦略です。フロップ以降で強いハンドを持っていても、時にはチェックしたり、時には大きく打ったりなど戦略を使い分けることをさします。解析などをしたことがある方にはわかると思いますが、GTO戦略ではこの混合戦略が採用されており、非常に複雑なものになっています。そして残念ながら、我々が学ぶべきなのこちらの戦略になります。

 

 また、この混合戦略の存在により、ポーカーには2つの選択肢のどっちも正解というケースが非常に多く存在します。なんとも不思議なゲームであり、複雑なゲームです。アミューズメントカジノにおいて「あそこは100%ベットだったって」などという会話を聞いたことがあると思います。コードギアスルルーシュのように「間違っているぞ!!」と心の中で高らかに教えてあげましょう。

 

 今回は概念の説明に重点を置いてみました。次回は、これらの概念の理解をもとによりAKQゲーム(トイゲーム)の説明をしようと思っていましたが、集合分析の解析結果の記事なども書いてみたくなってしまったので、どちらを書くかは未定です。長駄文読んでいただいてありがとうございました。