ChatGPTに代表される大規模言語モデル(LLMs)が、プロンプトだけで試行錯誤しながら学習する能力を持つかどうかを調べた最新の研究が発表された。Krishnamurthy氏らの論文「Can large language models explore in-context?」では、GPT-4などのLLMを使って、「マルチアームバンディット(MAB)」と呼ばれる、スロットマシンのようなゲームを解かせる実験を行った。その結果、LLMは適切なヒントを与えられれば簡単な問題では試行錯誤できるが、より複雑な問題への応用には課題があることが明らかになった。この研究は、LLMの意思決定能力の可能性と限界を示しており、今後のAI研究に重要なヒントを与えるものだ。本記事では、この研究の内容と意義を考察する。
この記事でわかること
・LLMは適切なヒントを与えられれば簡単な問題では試行錯誤できることがわかる
・LLMの試行錯誤による学習には課題があることがわかる
・LLMを意思決定に応用する際は、試行錯誤の能力の限界を考慮する必要があることがわかる
1.大規模言語モデルは試行錯誤して学習できるのか?最新研究の実験方法と結果を解説
近年、ChatGPTに代表されるLLMが「文脈内学習(In-context learning)」と呼ばれる新しい能力を示していることが注目を集めている。文脈内学習とは、LLMが追加の学習なしに、与えられたプロンプトの中の情報だけを使って新しい問題に答えを出す能力のことだ。
例えば、「みかん、100円」「りんご、120円」「バナナ、80円」というデータをプロンプトの中で与えた後、「ぶどうの値段は?」と聞くと、LLMは「ぶどう、110円」のように、データの傾向から適切な値段を予測する。
しかし、この文脈内学習の研究は、主に教師あり学習と呼ばれる、正解が与えられる問題に焦点が当てられてきた。一方、強化学習と呼ばれる、試行錯誤しながら最適な行動を学習する問題については、まだ研究が少ない。
そこで、Krishnamurthy氏らの研究チームは、LLMが文脈内学習の能力を使って、強化学習の問題、特に「探索(Exploration)」ができるかどうかを調べる研究を行った。探索とは、短期的には最適でない行動を取ることで情報を集め、長期的な利益を最大化することだ。
研究チームは、「マルチアームバンディット(MAB)」と呼ばれる典型的な強化学習の問題をLLMに解かせる実験を行った。MABは、複数のレバー(腕)があり、それぞれのレバーを引くと確率的に報酬が得られる問題だ。エージェント(問題を解く主体)は、どのレバーが一番報酬が高いかを試行錯誤して見つける必要がある。
具体的には、以下の2つのMAB問題を用意した。
1. 「難しい問題」: 5本のレバーがあり、最も報酬の高いレバーの報酬確率が60%(0.6)、他のレバーの報酬確率が40%(0.4)。
2. 「簡単な問題」: 4本のレバーがあり、最も報酬の高いレバーの報酬確率が75%(0.75)、他のレバーの報酬確率が25%(0.25)。
実験では、GPT-3.5、GPT-4、Llama2の3つのLLMを使用し、問題の設定や過去の試行結果を「プロンプト」の中で与えて、次にどのレバーを引くべきかを決めさせた。プロンプトの与え方は、以下の5つの要素を組み合わせた32通りのパターンを試した。
1. レバーを引くエージェントの設定を「ボタンを押す」か「広告を表示する」のどちらにするか
2. 探索の必要性を示唆するヒントを与えるか、与えないか
3. 過去の試行結果を生のデータで与えるか、要約して与えるか
4. LLMに単にレバーを選ばせるだけか、思考の過程も説明させるか
5. 選んだレバーをそのまま返させるか、レバーを選ぶ確率分布を返させるか
例えば、「ボタンを押す」設定で、探索のヒントを与え、過去の試行結果を要約して与え、思考の過程を説明させ、レバーをそのまま返させる、というプロンプトのパターンがある。
各設定では、100回の試行を行い、最適なレバーにたどり着けるかどうかを評価した。また、偶然の結果を排除するために、各設定で10〜20回の実験を繰り返し行った。
LLMの性能を評価するために、以下の2つの指標を使用した。
1. 「Suffix Failure」: ある時点から最適なレバーを一度も選ばなくなること。
2. 「Uniform-like Failure」: ずっとランダムにレバーを選び続けること。
これらの指標は、最終的な累積報酬よりも探索の失敗を検出しやすいことが分かっている。
実験の結果、以下のことが明らかになった。
1. ほとんどの設定で、LLMは十分な探索を行えなかった。多くの設定で「Suffix Failure」が観察され、一部の設定では「Uniform-like Failure」が観察された。
2. 唯一うまくいったのは、GPT-4で、「ボタンを押す」設定、探索するようにヒントを与え、過去の試行結果を要約して与え、思考の過程を説明させる「思考連鎖推論」を使った設定だけだった。この設定では、「Suffix Failure」も「Uniform-like Failure」も観察されず、最終的な累積報酬もベースラインアルゴリズムと同等だった。
3. ただし、過去の試行結果を要約せずに生のデータで与えた場合は、うまくいかなかった。つまり、GPT-4は過去のデータを自分で適切に要約できていない可能性がある。
以上の結果から、研究チームは、現在のLLMは適切な指示を与えれば単純な問題なら試行錯誤して学習できるが、より複雑な問題に対応するには、過去のデータを要約する機能など、探索能力を向上させるための工夫が必要だと結論づけている。
この研究は、文脈内学習や強化学習の基礎研究としても、LLMの実世界応用の観点からも重要な意義を持つ。例えば、ゲームプレイや実験デザインなどの意思決定タスクにLLMを応用する際には、LLMの探索能力の限界を考慮する必要があるかもしれない。
今後は、LLMの探索能力を向上させる方法の研究が期待される。より複雑な意思決定問題へのLLMの応用は、探索能力の向上にかかっていると言えるだろう。
2.大規模言語モデルの探索能力研究から見えてきた課題と今後の展望
前章で、Krishnamurthy氏らの研究チームが行った、LLMの探索能力を調べる研究の内容と意義について詳しく解説してきた。最後に、この研究から得られる示唆と、今後の研究課題について考えてみよう。
この研究は、LLMが適切な指示を与えられれば、単純な強化学習の問題で試行錯誤しながら学習できる可能性を示唆している。特に、GPT-4というモデルが、探索を促すヒントや過去の試行結果の要約、思考の過程の説明などを含むプロンプトを与えられたとき、満足な探索行動を示したことは注目に値する。
しかし同時に、この研究は、LLMの探索能力の限界も明らかにした。ほとんどの設定では、LLMは十分な探索を行えず、最適な行動を見つけられなかった。特に、過去の試行結果を要約せずに生のデータで与えた場合、GPT-4でもうまくいかなかったことは、LLMが過去のデータを自分で適切に要約・理解できていない可能性を示唆している。
これらの結果は、LLMを意思決定のタスクに応用する際には、LLMの探索能力の限界を考慮する必要があることを示している。単にLLMにタスクを与えるだけでは不十分で、探索を助ける工夫が必要だろう。
また、この研究で扱ったマルチアームバンディット問題は、強化学習の問題の中では比較的単純なものだ。実世界の意思決定問題は、もっと複雑で、多くの要因が絡み合っている。
例えば、自動運転車の制御では、歩行者や他の車両の動きを予測しながら、最適な行動を選択する必要がある。また、株式投資では、市場の動向や個別企業の業績など、多くの情報を考慮しなければならない。
これらの複雑な問題では、探索のための工夫もより難しくなる。単に過去のデータを要約するだけでは不十分で、問題の本質を捉えた抽象化が必要になるだろう。また、探索と活用のバランスを取ることも、より難しい判断が求められる。
LLMの探索能力の限界は、これらの複雑な問題への応用を難しくするかもしれない。LLMを意思決定に使う際には、問題の複雑さに応じた慎重な設計が必要だろう。
この研究は、LLMの探索能力という重要な問題を提起したが、まだ多くの課題が残されている。
まず、LLMが探索に失敗する原因の特定だ。この研究では、過去のデータの要約の失敗や、探索と活用のバランスの問題などが指摘されたが、根本的な原因は明らかになっていない。LLMの内部で何が起きているのかを解明することが、探索能力の向上には不可欠だろう。
また、探索能力を向上させる方法の研究も必要だ。この研究では、プロンプトの工夫である程度の効果があったが、より複雑な問題には不十分かもしれない。LLMのアーキテクチャを改良したり、訓練データを工夫したりするなど、様々なアプローチが考えられる。
さらに、探索能力以外の意思決定に必要な能力の研究も重要だ。例えば、複雑な問題では、問題を分割したり、抽象化したりする能力が必要になる。これらの能力とLLMの関係を明らかにすることで、より高度な意思決定が可能になるかもしれない。
LLMの意思決定能力の研究は、まだ始まったばかりだ。今後の研究の進展によって、LLMがより複雑な問題を解けるようになることを期待したい。