AI最新動向(2021夏)

#自然言語処理

公開日

2021.07.02

更新日

2026.06.17

AIの基礎研究も、実社会への応用技術も、加速度を増して進化し続けている。年に一度の最新動向解説では追いつかなくなったので、半期に一度のペースでAI関連の最新の動きを解説していきたいと思う。

基礎研究：巨大AIで急伸する言語処理

今のAIブームは2012年ごろから画像認識技術が牽引してきたが、ここ2、3年は自然言語処理の領域で目覚ましい発展がある。

そのきっかけとなったのが2017年にGoogleが発表したトランスフォーマーと呼ばれる技術。トランスフォーマーは、BERTなどその後に登場するいろいろな技術の基礎となっている。BERTは、一つの単語だけを理解するのではなく、前後の単語をいくつも処理することで、より正確に文章の意味を理解できるというもの。

処理する単語が多ければ多いほど意味を正確に理解できるので、精度を上げようとすればモデルはどうしても巨大化する傾向にある。

昨年は膨大なデータ処理を可能にするGPT-3と呼ばれるモデルが登場し、業界関係者の間で大きな話題となった。

ちなみにGPT-3のパラメータ数は1750億個。その膨大さに業界関係者は度肝を抜かれたが、その後に登場するモデルはどれも、さらなる巨大化の一途をたどっている。

今年に入りGoogleは、Switch Transformerのパラメーター数を1兆5000億個に拡大した。そうかと思えば、中国は６月に1 兆7500億個のWu Daoを発表。さらにGoogleはパラメーター数2兆個の画像認識モデルVit-G/14を発表してきた。

モデルが巨大になるといいうことは、それを処理するハードウェアも巨大にならざるをえないわけで、自然言語処理の領域は財力勝負の局面に入った。大企業や政府機関でなければ、この領域で太刀打ちできないフェーズに入ってきたと言える。

アルゴリズムが巨大化すれば、ボトルネックはハードウエアになる。今まではAIの半導体と言えばNVIDIA一強だったけど、AIチップの開発競争も激化している。Wired誌のNVIDIA and the battle for the future of AI chipsという記事によると、GoogleはTPU、AmazonはInferentia、バイドゥはKunlunとそれぞれ独自チップを開発しているし、Intel、IBM、AMD、クアルコムなどの半導体大手は、それぞれ自社製品のAI機能の強化している。またAmazonは半導体ベンチャーのAnnapurna Labs社を買収したほか、AMDはXilinx社を、IntelはNervana社とHabana Labs社を買収している。まだ買収されていない半導体ベンチャーのGraphcore社、SambaNova社、Nythic AI社、Blaize社、TensTorrent社なども、新製品を次々と出している。

また中国系アメリカ人の経済ジャーナリストNina Xian氏によると、これまで中国のテック業界は半導体で米国に出遅れていた。しかし最近では自動運転車向けのAIチップなどの新しい技術領域で頭角を現すベンチャーも出始めており、半導体の領域でも中国は米国にまもなく追いつく可能性があるという。（以下の動画は、該当する発言部分から再生が始まるように設定されています）

そのほか自然言語処理で気になる動きと言えば、GoogleのLaMDAと呼ばれる対話型技術。人間同士の対話はシナリオ通りに進むことはほとんどなく、話の内容が予期しない方向に進むのが普通。LaMDAは、予期せぬ方向に進む話題にもついていくことのできる高度な自然言語処理技術だ。Googleの今年の年次イベントでは、冥王星や紙ヒコーキになりきったAIが、ユーザーの質問に自然言語で答える様子が公開されている。こうした対話技術は、AIスピーカーや教育、高齢者向けサービスなどにも応用できそうだ。（以下の動画はLaMDAのデモ部分から再生が始まるように設定されています）

半導体大手のNVIDIAは今年の年次イベントで、同時通訳のAIを発表している。動画の中では英語が完璧な日本語に同時通訳されている。（以下の動画は同時通訳技術のデモ部分から再生が始まるように設定されています）

しかし実際にはどうなのだろう。対話する者同士では互いに知っている事象の背景を省略する傾向にあるが、背景を知らないAIはうまく訳せるのだろうか。

その場の対話内容だけでは、言語化されていない情報を加味できない。なのでGoogleは、写真や動画などといったテキストデータ以外のデータも同じアルゴリズムで処理する方法を発表した。（以下の動画は該当部分から再生が始まるように設定されています）

また以下のモデルは、NVIDIAの年次イベントの基調講演で紹介された同社が研究開発中のAIモデルだ。（下の動画は、該当モデルのデモ部分から始まるように設定されています）

- - DLSS 　　　ディープラーニング・スーパー・サンプリング　一秒間に表示されるフレームが増加
  - StyleGAN　　　高解像度の画像生成
  - GANcraft　　小学生に人気のゲーム「マインクラフト」をよりリアルな３Dに自動変換する
  - GANverse3D 　　写真をアニメーション可能な３Dモデルに変換
  - Face Vid2Vid 　　喋ってる動画をアニメ化するエンジンでデータ量を10分の１に
  - Sim2Real　　　シミュレーション環境の中で学習したロボットのAIをリアルな環境でも動かせる技術
  - SimNet 　　物理法則に則ったシミュレーション環境
  - BioMegatron　　最大級の生物医学言語モデル
  - ３DGT 　　３D合成データ生成
  - OrbNet 　　量子化学のための機械学習量子ソルバー

こうした研究開発中のAIモデルを見ていると、半年から１、２年後にどのような製品となって実用化されるのか少し想像できるかもしれない。

実用化レベルのAI

では今既に実用化のレベルに達しているAIモデルを見ていこう。

【Live Text】

まずは今年のAppleの年次イベントで発表されたLive Text 。　ホワイトボードの写真を撮ると、手書き文字を認識してテキストデータにしてくれる。写真の中の電話番号をタップすれば、その電話番号に電話してくれるというもの。

写真の中の文字は、当たり前だけど画像データ。それをテキストデータに変換するという技術。画像認識AIを応用しているわけだ。

ただ文字画像をテキストデータに変換する機能自体は、GoogleのGoogle翻訳アプリでもうずいぶん前から実装されている。でも電話番号をタップするだけで電話をかけられるようにするなどといった使い勝手のよさを追加しているのがAppleらしいところかもしれない。（下の動画は、LiveTextの部分から始まるように設定されています）

【医療】

AppleはWalking Steadinessという新しいヘルスケアの指標を発表した。スマホを持ち歩くことで、スマホのセンサーがいろいろなデータを収集し解析し、足腰が弱ってきていないかどうかを判断してくれるというものだ。この指標はスマホが広く普及し、各種データを収集し、それをAIが解析できるようになって初めて実現した指標だと言える。つまり今後スマートウォッチなどのウエアラブル機器により多くのセンサーが搭載され、多くのユーザーのデータを解析することで、さらに新しい指標が生まれてくることが予想される。（下の動画は該当箇所からスタートするように設定されています）

【拡張クリエイティビティー】

AIは人間の仕事を奪うのではなく、AIと人間が共同作業することで、人間の生産性やクリエイティビティーは拡張される。そういう話を以前にAIと人間の知能の共同作業。拡張クリエイティビティーという新しい働き方という記事の中で取り上げた。

Microsoft and OpenAI have a new A.I. tool that will give coding suggestions to software developersという記事によると、GitHub CopilotというAIは、プログラマーがコードが書き始めたら、次のコードを提案してくれるという。このも一種の拡張クリエイティビティーだと言える。

これからこうした拡張クリエイティビティーと呼べるようなAIが次々と登場するのだろうと思われる。