これから生成AIを使いこなすために、AI(人工知能)について知っておきたい技術的な内容や発展の経緯について、「生成AIパスポート」のテキストを参考としてまとめてみました。
AI(人工知能)とは?
AI(人工知能)は、コンピュータが人間のように考えたり学んだりする技術です。AIの基本的な仕組みとその種類について詳しく説明します。
知能をもたらす仕組み
ルールベース
人間が作ったルールに従って動くAIです。例えば、チェスのルールに従って動くコンピュータがこれに当たります。但し、 複雑な問題には対応できないため、限られた範囲でしか使えません。
機械学習
コンピュータがたくさんのデータから自分で学ぶ技術です。以下の方法があります:
教師あり学習
正しい答えを教えて学ぶ方法です。例えば、犬と猫の画像を見せて、それぞれが犬か猫かを教えることで、コンピュータが犬と猫を区別できるようになります。
教師なし学習
データをグループに分けたり、異常を見つけたりする方法です。例えば、似たような画像をグループに分けることができます。
半教師あり学習
教師あり学習と教師なし学習を組み合わせた方法です。少ないラベル付きデータと大量のラベルなしデータを使って学習します。
強化学習
ご褒美をもらいながら学ぶ方法です。例えば、ゲームをプレイして得点が高いとご褒美をもらい、その経験をもとに次回はもっと上手にプレイします。
ディープラーニング(ニューラルネットワーク)
ニューラルネットワーク
人間の脳を真似た機械学習の仕組みがニューラルネットワークです。神経細胞の仕組みをプログラムによって再現した「人口ニューロン」によって情報を伝達します。入力値を人口ニューロンによって次々に変換して情報を処理する仕組みです。
ボルツマンマシン
ボルツマンマシンは、ニューラルネットワークの一種で、0と1の二値データの教師あり学習から実数を使った多層学習へと進化しました。しかし、処理に膨大な時間がかかるため実用化には未完成なモデルでした。
制限付きボルツマンマシン(RBM)
ボルツマンマシンの改良版で、隠れ層と可視層の間にのみ接続があることで計算効率を向上させました。制約付きボルツマンマシンを多層に重ねた深層ネットワークにより、ディープラーニングが飛躍的に進化しました。
ディープラーニング
機械学習の一種であり、特に多層のニューラルネットワークを使用してデータを学習する手法です。
CNN(Convolutional Neural Network)
ディープラーニングの一つのアーキテクチャーで画像を認識するのが得意です。Comvolutionalは「畳み込み」という意味を持ち、入力データの一部のみを処理するニューラルネットワークで、画像の一部分(局所的な部分)だけを見て情報処理が可能です。例えば、写真の中の顔を認識することができます。
変分オートエンコーダ(VAE)
VAEは、データの圧縮と生成を行うモデルです。エンコーダでデータをシンプルな数値に変換(次元削減)し、潜在空間でデータの重要な特徴を捉えたベクトル化を行い、デコーダで新しいデータを生成します。これにより、画像やデータの圧縮と生成が可能になります
敵対的生成ネットワーク(GAN)
生成器と識別器が競い合うことで新しいデータを生成します。生成器は新しいデータを作り、識別器はそのデータが本物かどうかを判断します。この競争を通じて、GANは非常にリアルな画像やデータを生成することができます1。
RNN(Recurrent Neural Network)
過去の情報を記憶しながら新しい入力を処理するため、時系列データ(時間の流れに沿ったデータ)を扱うのが得意です。画像データではなく、人間の会話や音楽といった時間的指向性をもつデータ処理に使われます。
LSTM(Long Short Term Memory)
時系列データや文章などのシーケンスデータを処理するための特殊なRNNです。シーケンスデータの依存関係を学習できるので、複雑なパターンの時系列データの予測ができます。
Transformerモデル
大規模データを学習するには、CNNやRNNでは膨大な時間かかかってしまうため、アテンション層のみを使用して構築されたモデルです。大量のデータを一度に処理するのが得意です。2017年以降、急速に大規模言語モデルが発展したきっかけとなったモデルです。
Transformerモデル
Transformerモデルは、自然言語処理(NLP)や画像処理などで使われる最新のAIモデルです。2017年にGoogleの研究者たちによって開発されましたが、「Attention is All You Need」という論文で紹介されたことは有名です。大量のデータを一度の処理でき、大規模なデータセットの学習時間を短縮できるようになり、この技術によって生成AIが飛躍的に発展しました。
セルフアテンション
入力された単語の重要度を得点付けすることで、各単語が文章全体の中でどの程度影響があるかを考慮して処理できます。
並列処理
RNNやLSTMと違い、データの順番に依存せず、複数の処理を同時に行うことで、学習速度を大幅に向上させます。
位置エンコーディング
シーケンスの単語の位置情報を取り込み、文章内の単語の順序情報が保持されます。
エンコーダとデコーダ
Transformerはエンコーダとデコーダで構成されます。エンコーダは入力を数値情報に変換し、デコーダはあ数値情報を使用して最終的な出力(テキスト情報)を生成します。
その他の重要な概念
ノーフリーランチ定理
どんな問題にも対応できる万能なAIは存在しないという考え方です。特定の問題に特化したAIが必要です。
ANI(Artificial Narrow Intelligence)
特定のタスクに特化したAIです。例えば、チェスをするAIや顔認識をするAIがこれに当たります。
AGI(Artificial General Intelligence):
人間のように幅広いタスクをこなすAIです。まだ実現されていませんが、将来的には人間の知能を超えることが期待されています。
シンギュラリティ(技術的特異点)
AIが人間の知能を超える状態です。これが実現すると、AIが自分自身を改良し続けることができるようになります。


コメント