Google最新AI「Gemini」とは

これは同社の最新技術を駆使したマルチモーダルとしてゼロから構築した新たな生成AIのこと。テキスト・画像・音声・動画・コードなどさまざまな情報を一般化してシームレスに理解したうえでいろいろな操作を行い組み合わせることが可能です。将来的にGoogle Pixelにも採用予定とのことです。今後同社が活用する生成AIの基盤技術として検討が進んでいます。

グーグルのAI技術の変遷

ここ数年Googleは複数の生成AIを開発しており、最初は「BERT」。2018年に論文発表され、2019年に検索エンジンに組み込んでいます。発表当時には、自然な文章を処理して検索に活かす「自然言語処理技術」としての側面を強調したものでした。BERTは「Bidirectional Encoder Representations from Transformers(Transformerによる双方向のエンコード表現)」の略。Transformerはその後の生成AIに使われている技術、GPTのTも「Transformer」なのです。

2021年には会話に特化した生成AI「LaMDA」、同時により汎用性の高い「PaLM」を開発、昨年からGoogleチャットAIサービス「Bard」にPaLMの最新モデル「PaLM2」を組み込んで導入しています。

発表された「Gemini」は双子座のことを表しています、社内AIチームとGoogle傘下でAIを開発してきたDeepMindが一丸となり開発した経緯からそうした名称となった模様です。Googleでは、出遅れたAI開発競争において挽回を計画しており、先行する「GPT-4」を超えた独自生成AI技術を世間に知らしめる意気込みを暗示しているようです。

機能優位性

先行するGPT-4と差別化しているのは「マルチモーダル機能」。マルチモーダルは、テキスト・画像・音など複数の情報を並列に扱い処理できることを指します。従来型生成AIでは文字情報を中心に学習されており、そこに画像や音声の学習結果も加えてマルチモーダル性を実現してきました。

ところが今回のGeminiの場合には最初の学習からテキスト・画像・音を並列に扱って処理されており、「絵を見て答えを文章で返す」「絵と音から内容を把握して回答する」といった処理にも向いているのです。

GPT-4超えの性能向上させたAI

「Gemini Ultra」はあくまでGoogleが実施したベンチマークテスト上ではありますが、GPT-4に性能面で総合勝利した現時点で最強AIと呼ばれており、非常に複雑なタスクも解ける最大サイズのモデル。たとえば物理のテスト用紙をGeminiに読み込ませたうえで正しく解けているか判定させ、解けていない場合は模範解答を小数第2位まで出力するように指示を出したとします。

するとGeminiはテスト用紙の手書きの文字を正しく読み取ったうえ位置エネルギーの式がmgHではなくmgLとなっていた間違い箇所を正しく訂正したことが報告されています。

人間からの指示にも正しく反応しており、クセの強い手書き文字入力も正しく認識していました。一般的に大規模言語モデルが苦手とされている計算問題にも正しく回答、Geminiはテキスト・画像等の複数情報を同時並行して処理できることが証明されています。

こうした技術の開発競争により生成AIはますます進化を遂げつつあり、人間の処理能力を超えた力を将来的に発揮することは間違いありません。こうした技術的発展をいかにスマートに事業展開に取り込めるのか経営者の力量が問われているのです。