人工知能(AI)の技術的手法の一つである、「ディープラーニング」。AIを導入する企業が増えてきている中、ディープラーニングへの注目度も高まっています。「ディープラーニングとは、そもそも何か」「どういった場面で活用できるのか」など知りたい方も多いでしょう。
今回の記事では、企業でDXを推進したりAI導入を進めたりする方向けに、ディープラーニングの定義や仕組み、活用事例、実装する際の注意点などを解説します。
ディープラーニング(深層学習)とは?
「ディープラーニング(deep learning)」は、人工知能(AI)を支える技術である「機械学習」の一つです。日本語では、「深層学習」と呼ばれます。ディープラーニングでは、「ニューラルネットワーク」というモデルを用いて、学習データからルールや知識を学習し、予測・認識・生成などを実行します。
ディープラーニングが注目されるきっかけとなったのは、2012年に行われた画像認識の精度を競う「ILSVRC」というコンテストです。トロント大学のヒントン教授らがディープラーニングを用いたシステムで圧勝し、脚光を浴びました。2016年に行われた「人対AI」の囲碁対決が記憶に新しい方もいるでしょう。このときは、ディープラーニングを応用したAIプログラム「AlphaGo」が、世界トップレベルの韓国人プロ棋士に勝利しました。
ディープラーニングの実用例としては、画像認識や音声解析、言語の翻訳、ロボットの制御、文章をもとにした画像・動画の生成などが挙げられ、その活用領域は急速に拡大しています。
AI、機械学習、ニューラルネットワーク、ディープラーニング(深層学習)の違い
ディープラーニングと同じ領域で頻出の言葉に「人工知能(AI)」や「機械学習」があります。この3つの言葉は、「AI>機械学習>ディープラーニング」という階層構造になっています。
AIとは
AI(Artificial Intelligence=人工知能)とは、人間の知能を機械/ソフトウェアで人工的に実現したもので、コンピューターサイエンスの研究分野の一つです。明確な定義はなく総務省では
『知性』や『知能』自体の定義が無いことから、人工的な知能を定義することもまた困難である」と言及しながら、「人間の思考プロセスと同じような形で動作するプログラム、あるいは人間が知的と感じる情報処理・技術
と、AIを定義しています。
出典:『令和元年版 情報通信白書』第1部第3節(1)AIに関する基本的な仕組み 総務省
機械学習とは
「機械学習」とは、AIの技術の一つであり、与えられたデータをコンピューターが学習し、ルールやパターンを導きくことで特定のタスクを処理する技術です。その際、出力に影響を与える変数(特徴量)は人が設定します。機械学習は「教師あり学習」「教師なし学習」「半教師あり学習」「強化学習」の4つにわけられます。
「教師あり学習」とは、正解があらかじめ与えられている教師データを学習に用い、モデルを構築していく方法のことです。
「教師なし学習」は、正解が与えられていないデータを活用し、データの分布/統計/特徴を利用するモデルを構築していく手法です。
半教師あり学習とは、「教師あり学習」と「教師なし学習」を組み合わせた手法のことで、「教師なし学習→教師あり学習」「教師あり学習→教師なし学習→教師あり学習」 などの組み合わせがあります。
AIが自ら試行錯誤しながら、最適なモデルを構築する手法は、「強化学習」と呼ばれます。
機械学習の詳細について知りたい場合には、「機械学習とは?定義や種類、活用事例を紹介」の記事をご覧ください。
ニューラルネットワークとは
ディープラーニングを理解する上で欠かせない概念としてニューラルネットワークがあります。ニューラルネットワークとは、機械学習モデルの一つで、人間の脳にある「ニューロン」と呼ばれる神経細胞の活動を参考に考案された、入力を解釈することで何かしらの出力を行うプログラムのことです。「入力層」「中間層(隠れ層)」「出力層」の3層からなっています。ニューラルネットワークの最もシンプルな構造の一つが「パーセプトロン」です。 ※エクサウィザーズ作成
ニューラルネットワークの活用には、AIを構築する「学習フェーズ」とAIを利用する「推論フェーズ」があります。「学習フェーズ」は、用意した大量のデータをニューラルネットワークに入力し、AIを学習させるフェーズです。これによって学習済みモデルが構築されます。一般にはこの学習済みモデルがAIと呼ばれます。「推論フェーズ」では、新しいデータに対して学習済みモデルを用いて推論を行います。これにより未知の事象に対する予測や分類が可能となります。
例えば手書きの文字を与えたときに文字を認識するニューラルネットワークについて考えます。
※エクサウィザーズ作成
学習フェーズでは、大量の手書き文字と答えのデータを入力しニューラルネットワークの学習精度を上げます。手書き文字が「3」なら「3」、手書き文字が「5」なら「5」と大量の教師データを渡すことで、手書きの文字を渡すとそれが何の数字かを出力する確率が高くなります。ある程度精度が上がればそれを学習済みモデルとします。
推論フェーズでは、学習済みモデルに手書き文字「3」を入力することで高い精度で「3」と出力するようになります。
ディープニューラルネットワークとは
ディープニューラルネットワークとは、ニューラルネットワークを多層構造に階層化した機械学習モデルです。先ほど紹介した「中間層(隠れ層)」が何層にも深くなった構造をしています。層が深くなったことでAIの表現力が増し、より高度で抽象的な問題に回答可能です。
従来は層を深くしてしまうと、出力に影響を与える変数(パラメータ)の学習が適切に進まないという課題がありました。しかし、誤差逆伝搬法(バックブロパゲーション)を始めとした様々な学習テクニックが提案、導入されたことにより、多層な(ディープな)ニューラルネットワークでも学習が行えるようになりました。
ディープニューラルネットワークの代表的なモデル構造には、「CNN(Convolutional Neural Network、畳み込みニューラルネットワーク)」や「RNN(Recurrent Neural Network、再帰型ニューラルネットワーク)」「GAN(Generative Adversarial Networks、敵対的生成ネットワーク)」「Transformer(トランスフォーマー)」「オートエンコーダ」、RNNを改良した「LSTM法(Long Short Term Memory)」などがあります。
ディープラーニングとは
ディープラーニングとは、ディープニューラルネットワークを用いた機械学習モデルの構築を行うプロセス全体を指します。ディープ(深層)ニューラルネットワークモデルの学習で、ディープラーニング(深層学習)です。
機械学習とディープラーニングの違いの一つが、特徴量をコンピューターが自動で学習することです。自動運転技術や音声合成、自動翻訳、不正検知など、より多くのデータ処理が必要な際に使われます。
ディープラーニングの活用事例
実際、ディープラーニングは、どのようなことに活用できるのでしょうか。ディープラーニングの活用事例を紹介します。既にビジネスで使われている事例は多くありますので、自社でも活用できないか参考にしてみてください。
画像認識/解析
画像認識/解析とは、入力された画像・動画の特徴を認識し、何の画像なのかを分類・検出する技術です。入力された情報から「中間層」で特徴を抽出することにより、画像を識別できます。
代表的なものとして「セグメンテーション」「ディテクション」「分類」「生成」の4つの技術分類があり、それぞれ活用シーンが異なります。
セグメンテーション
認識したい物体の領域をピクセル単位で分割します。活用シーンとしては「画像から臓器や病変部分を検出」「製品の不良部領域の検出」「衛星写真から森林の状態の把握」などがあります。
ディテクション
認識したい物体を矩形で囲って抽出します。活用シーンとしては「製品の判別によるセルフレジ」「製品の不良部の検出」「監視カメラから不審者を抽出」などがあります。
分類
画像が予め設定した分類の何にあたるかを検出します。活用シーンとしては「写真の自動仕分け」「設備や製品などの異常検知」などがあります。
生成
指定した条件等に基づき、画像を生成します。活用シーンとしては「存在しない人物モデルの生成」「広告グラフィックの生成」「アニメ風イラストの生成」などがあります。近年この技術を応用し、特定の文章を入力すると、その文章に合った画像や動画が自動生成される技術などもでき注目を集めています。
ビジネスシーンにおいては、顔認証システムや自動運転、手書き文字認識、感情分析、監視カメラの映像データからの不審者発見、レントゲン写真からの病気の早期発見などに活用されています。
AIのスペシャリストが語る、新時代に求められるスキルとは?
AIやWEB3という言葉は耳にするものの、それが実際に仕事にどのような変化をもたらすのでしょうか。
「Web3時代のAI戦略」を執筆したエクサウィザーズ取締役の大植択真が、テクノロジーの現在地と今後の展望について解説しています。
アーカイブ動画を無料で公開中のため、ぜひご視聴ください。
\こんな方におすすめの動画です/
- DX人材育成やDX組織構築に関わっているが今後の方向性や具体的な方法論にお悩みの方
- ChatGPTなどの基盤モデルの登場で今後求められるスキルがどのように変化するのかを知りたい方
- これからの時代を先読みし、それに対応したスキルをどのように身に着けるべきかについてお悩みの方
音声認識
音声認識とは、入力された音声を認識する技術です。取得した波形データをもとに、人間の声を認識しテキストに出力したり、音声の特徴を認識し話者を識別したりできます。ディープラーニングにより、音声の認識精度が大幅に向上しました。
音声認識処理は、下の表にまとめたように「音響分析」「音響モデル」「発音辞書」「言語モデル」という4つの工程からなります。
音声認識の4工程
工程 | 概要 |
---|---|
①音響分析 |
|
②音響モデル |
【例】 |
③発音辞書 |
【例】 |
④言語モデル |
|
音声認識は、日常生活においては「Siri」に代表されるバーチャルアシスタントやスマートスピーカーなどに活用されています。また、人間と会話するような対話応答ができるLINE予約受付サービス「LINE AiCall」でも、音声認識を始めとする技術が使われています。
自然言語処理
自然言語処理とは、人間が日常的に使う「書き言葉」や「話し言葉」などの自然言語を、コンピューターに処理・理解させる技術です。言語の特徴や特質を研究する言語学から得た知見や、大規模なテキストデータを用いて自動獲得した知識を活用することで言語を理解させることができます。
ビジネスシーンにおいては、文章の要約やAIチャットボット、ブラウザー検索などに活用されています。また、米メタ・プラットフォームズが開発したリアルタイム音声翻訳AIにも、自動言語処理の技術が使われています。
ご紹介した以外にも、産業機器やロボットなどに取り付けられたセンサーから得られる時系列データをもとに異常の兆候を感知する「異常検知」や、囲碁や将棋などのゲーム、金融トレーディングにおける投資タイミングの判断などのAIにも、ディープラーニングが活用されています。
ディープラーニングを実装する際の注意点
ディープラーニングを実装する際はいくつか注意点がありますが、「過学習」と「破局的忘却」について解説します。
過学習
「過学習」とは、学習データを過剰に学習した結果、汎用化しづらい状態になること。「過適合」とも呼ばれます。過学習になると、「学習データ上では正解率が高いのに、未知のデータが入力される実運用では正解率が低くなる」という状態に陥ってしまいます。
過学習を防ぐには、「学習データの量を増やす」「モデルを簡単なものに変更する、またはドロップアウトする」「複雑なモデルを単純なモデルへ変化させていく数学的な手法である正則化を実施する」といった対策が必要です。
破局的忘却
破局的忘却とは、新しいデータの学習をすると、過去に学習した内容をリセットしてしまうことです。例として、「野球」と「サッカー」を識別できている状態で、新たに「テニス」を学習させると、「野球」「サッカー」を忘れてしまうといったケースが挙げられます。直近に学習したものしか認識できない破局的忘却は、AIの欠点ともいわれています。
破局的忘却を防ぐには、「一度学習したことを再度学習させる」「ランダムな入力パターン(疑似パターン)を作成し、新たなデータと併せて学習させる『疑似リハーサル』を実施する」「学んだ特徴の重要なパラメータを変化させず、新たな学習を行う『EWC(Elastic Weight Consolidation)』を実施する」などの対策が必要です。
まとめ
ディープラーニングの登場により今まで以上のAIの精度が上がりスピードも向上することでより多くの分野でAIが活用されるようになりました。ディープラーニングを「画像認識」や「音声認識」「自然言語処理」などに活用することで、私たちの暮らしはより豊かになると期待できます。ビジネスにおいても、ディープラーニングを取り入れることで様々なサービスの品質向上や新しいサービスやビジネスモデルの創出が期待されます。
ディープラーニングについておおよそ把握できた方は、ディープラーニングを実際にビジネスに導入する方法や、AI導入も含めたDXの進め方について学び、ビジネスに応用していきましょう。