この記事は約11分で読めます。
ChatGPTの急速な普及を機に、近年「生成AI」が飛躍的に発展しています。
生成AIを活用することで、業務効率化やアイデア創出など多くの効果が期待されています。
この記事では「生成AI」とは何か、仕組みや種類、活用方法などについて分かりやすく解説します。
生成AI(ジェネレーティブAI)とは?
生成AI(ジェネレーティブAI)とは機械学習のひとつであり、入力されたデータからパターンを学習し、それをもとに新たなコンテンツを生成できるAIのことです。
対話型AIサービス「ChatGPT」も生成AIを使用した代表的なツールで、入力された内容に対して、人間のように自然に回答することができます。
近年ChatGPTの出現を機に世界中で注目されるようになり、ビジネスなどあらゆる場面で活用されています。
従来のAIとの違い
従来のAIとの大きな違いは、新しいものを生成できることです。
従来のAIは大量のデータを与えて特徴や傾向を学習させることで、入力されたデータから適切な答えを提示します。
一方で生成AIは、学習したデータをもとにAIが自ら学習を重ね、人間のように考えることで新しいコンテンツを創造できます。
本サイトの運営ならびに記事の執筆を行っているムーンプライドでは新規事業の立ち上げや推進に関するコンサルティングサービスを提供しております。
大手企業における新規事業企画、事業の推進支援やパートナー企業との共創事業支援、DX営業支援などを行わせていただいており、ご興味のある方は本サイトの案件登録フォームからお問い合わせください。
また、大手ファーム出身のコンサルタントも募集しておりますので、案件をお探しの方はfirmgradsからご登録をお願いいたします。
生成AIの種類・使い方
生成AIには、いくつか種類があります。
用途に応じて生成AIを使い分けることで、作業を大幅に効率化したり、瞬時にアイデアを得たりすることができます。
ここでは、3種類の生成AIを紹介します。
テキスト生成 → 質問に対する回答作成
テキスト生成AIは、質問を入力すると質問の内容を解析し、回答となるテキストを生成するAIのことです。
近年注目を集めている「ChatGPT」はテキスト生成AIの代表例として挙げられ、人間に近い高精度な回答を得ることができます。
テキスト生成AIを活用することで、長文要約やアイデア創出、プログラミングのコード生成およびエラー箇所の発見など、さまざまな作業を自動化することが可能です。
画像・動画生成 → オリジナル画像・動画作成
画像・動画生成AIは、テキストで指示するだけでオリジナルの画像や動画を生成するAIのことです。
画像生成AIはわずか数秒~数十秒で全く新しい画像を生成できるため、Webサイト等の制作時間短縮やアイデア創出など、幅広い活用が期待されています。
動画生成AIは以前まで数秒の動画しか生成できませんでしたが、2023年8月には最長16秒まで生成できるようになりました。
今後はより長尺の動画も生成できるようになり、簡易的なプロモーションビデオの作成に活用できる可能性があります。
音声生成 → 高精度な音声生成
音声生成AIは、音声またはテキストによる入力から新たな音声を生成するAIのことです。
大量の音声データから人間の声を高精度で学習し、さまざまな文章を話せる音声を生成できます。
一度学習しただけで声色を忠実に再現してテキストを読み上げるだけでなく、感情に合わせた表現も可能となります。
音声生成AIを活用することで、ナレーションの自動生成やアバターへの音声付加等ができます。
生成AIの仕組み・用いられる生成モデル
生成AIがコンテンツを生み出すために、生成モデルが使用されています。(全体で900w)
先ほどご紹介した生成AIの種類や性質によって、使用されるモデルが異なります。
ここでは、代表的な4種類の生成モデルを紹介します。
LLM
LLM(Large Language Model)は大量のテキストデータを用いて作られた自然言語処理モデルのことであり、有名なOpen AIの「ChatGPT」もその一つです。
学習するデータ量やパラメータ数が多いことがポイントとなっており、世間を驚かせたGPT-3(2020年6月時点)でパラメータ数が1750億、GPT-3.5は推定3000億強、GPT-4は1兆超と言われています。
多くのモデルではGPT(Generative Pre-trained Trensformer)の名前にもあるTransformerというアーキテクチャが採用されており、GPUが得意な並列処理が可能にしたことで従来のRNNベースのモデルから性能を高めることに成功しました。
現在(2023年10月時点)はマイクロソフト社の検索エンジンBingにも使われており、急速に利用が進んでいます。
VAE
VAEは画像生成AIに使用されている生成モデルの1つで「変分オートエンコーダ」と呼ばれるディープラーニング技術が活用されています。
与えられた学習用データからAIが特徴を抽出し、その特徴から新たなコンテンツを生成できます。
例えば有名イラストレーターの作品を大量に学習させると、そのイラストレーターの作品の特徴を持った新たなイラストを生成できるようになります。
また複雑な画像の特徴を捉えることができるため、工業製品の異常検知にも利用されています。
GAN
GANも画像生成モデルの1つですが、VAEとは異なり「Generator(生成器)」「Discriminar(識別器)」という2種類のネットワーク構造を競わせることで、より高度な画像を生成します。
ランダムなノイズからGeneratorを生成し、学習用の正しい画像であるDiscriminarと比較するのを繰り返すことで、解像度の高い画像を生成します。
またGANを利用することで、テキストから全く新しい画像を生成することもできます。
拡散モデル
拡散モデルは、GANの進化系ともいえるモデルで、学習用の画像にノイズを付加した上で、その画像から徐々にノイズを除去するのを繰り返すことで、元の画像を復元します。
GANよりさらに高解像度の画像を生成できるため「Stable Diffusion」や「DALL-E2」など、多くの画像生成AIに採用されています。
生成AIの現状の課題
生成AIはビジネスや日常生活をより便利にすることが期待されている一方で、課題や危険性もあります。
ここからは、生成AIの3つの課題および危険性について解説します。
AIか人が製作したものの判別が付きづらい
精度が上がってくるにつれて、作成された文章や作品がAIによって製作されたものなのか、人間によって製作されたものなのかそもそもの判別が付きづらい、もしくは間違っている箇所の判別が付きづらい、という課題が想定されます。
例えば米国の映画業界では、俳優の肖像権を購入し、AIで動かす取り組みが試みられている一方で、そのようなAIを使う動きに危機感を覚えた俳優労組や脚本家労組が大規模なストライキを起こすといった動きが出ています。
また、OpenAIは2023年1月31日に「AI Text Classifier」というAIが作成した文章か否かを判定するサービスを公開(2019年にもGPTが出力した文章か判定するGPT-2 Output Detectorというツールを公開しているが、性能が大幅に上がったとしている)したが、2023年7月20日にひっそりとサービスを終了しており、その理由を「精度が低いため」と述べている。
このように、OpenAIという生成AIのトップランナーでさえ生成AIによる創作物を判定することが難しく、生成AIの質があがると人間が作成したものとそうでないものの判別は非常に難しいことがわかります。
情報の真偽性とその判断が困難
生成AIにより出力された情報は必ずしも正しいとは限らないため、使用した際には真偽を確かめることが大切です。
特に2022年11月に公開されてから急激に利用者が増加しているChatGPTにおいて、無料版であるGPT-3.5は、2021年9月以降に発生した出来事を学習していません。
そのため最新の情報やトレンドに関しては、正しく出力されない可能性があり注意が必要です。
著作権問題に発展する可能性
画像・動画生成AIを悪用すると、著作権問題に発展してしまう恐れもあります。
例えば有名イラストレーターや人気動画クリエイターが作った作品を、画像・動画生成AIに大量に学習させることで、その作品と非常に類似した作品を生成できてしまいます。
その結果、学習元となったイラストレーターや動画クリエイターの著作権を侵害する恐れがあります。
また生成AIを悪用することによって生成された画像や動画が、そのイラストレーターや動画クリエイター自身が作成した作品であるかのように拡散されてしまうことで、風評被害を受ける可能性もあります。
情報漏洩およびサイバー攻撃へ悪用される恐れ
生成AIは入力された情報がデータベースに記録されるため、セキュリティに関する情報を誤って入力すると情報漏洩の恐れがあります。
例えば会議資料に活用するために、ChatGPTに会社の機密情報を含んだ文章の要約を指示すると、その機密情報が記録され、他の利用者に回答として出力されてしまう可能性があります。
またテキスト生成AIの新たな文章を瞬時に生成できる特徴を悪用し、フィッシングメールの文面に使用される等の危険性があります。
生成AIを利用した事業・サービス事例
2022年にChatGPTがリリースされて以降、急速に普及したことを受け、生成AIを利用したサービスが相次いで発表されています。
ここでは、生成AIを利用したサービスを4つ紹介します。
LIPSの独自AIチャット機能「LIPS AI バーチャルビューティーアドバイザー(β)」
AppBrewが運営する国内最大級の美容プラットフォーム「LIPS(リップス)」は、GPTを活用した独自チャット機能である「LIPS AI バーチャルビューティアドバイザー(β)」を提供しています。
対話型AIの回答精度に対する懸念点を払拭するために、約390万件以上の口コミやデータベースを活用して回答を生成し、適切かつわかりやすい高精度な回答ができるよう独自に開発しました。
AIチャット型業務効率化ツール「AI Coworker」
法人カード事業等を展開している「UPSIDER」が2023年8月にリリースしたサービスで、契約書管理システムや会計システムなどの外部ツールとチャットツールである「Slack」を連携することで、会話形式で契約書の締結から支払いまでをSlack上で完結できます。
これにより、これまで複数のシステムにそれぞれログインして行う必要があった煩雑な業務は、AI Coworker1つですべて簡単に完結させられるようになります。
ノーコードAIプラットフォーム「FLUX AI」
SaaS事業を展開している「FLUX」が提供するサービスで、知識や開発スキルがなくてもAI技術を簡単にビジネスへ活用することができるノーコードAIプラットフォームです。
通常、AIを需要予測や最適化に活用する場合、データ整備やモデル構築などが必要となり、多くの時間と費用が掛かります。
しかしFLUX AIを利用することで、AIが行動を予測しコンテンツ配信の最適化を行うシステムを簡単に構築できるため、広告やメディア、WEBサイトなどの業務に活用されています。
日本初のAI契約審査クラウドサービス「GVA assist」
GVA TECHが提供する日本初のAI契約審査クラウドサービスで、契約書に潜むリスクや不足している単語や文章だけでなく、自社基準における抜け漏れまでAIが瞬時に検知します。
また確認作業だけでなく、修正作業まで大幅に効率化することができます。
現在「GPT-4」などの大規模言語モデルの利用研究が行われており、機能向上や法務ナレッジマネジメントへの活用、法務案件の効率化が期待されています。
Spotifyによる本人の声での多言語吹き替え
スウェーデンのストリーミングサービスを行っているSpotifyは2023年9月25日(現地時間)にPodcastのホスト自身の声そのままで複数言語に吹き替える「Voice Translation」を発表。
OpenAIが同日に発表したtext to speechと同社が3月に公開した音声認識ツール「Whisper」を採用しているとのことです。
英語→スペイン語から開始し、一部のホストに提供しており、今後フランス語、ドイツ語など対応言語を増やしていく計画だそうです。
生成AIの今後の活用
現状ではテキスト生成AIの利用が多く、記事やシナリオ作成などに活用されているケースが多くあります。
しかしプログラムや画像、動画の作成に活用している人も少なくありません。
また全く新しいコンテンツの創造よりも、パターン化された出力結果を業務に活用している人が多くなっています。
今後はマニュアルや議事録の作成など、より高度な編集能力を要する業務への活用が想定されています。
それ以外にも問い合わせ対応や製品・新機能・プログラム開発の効率化、資料・ノウハウの活用およびマニュアル化など、さまざまな業務への活用が進むことが考えられます。
さらにテキスト、画像、データなど複数の種類をAIが同時に処理する「マルチモーダル」AIにより、さらに人間に近い生成AIモデルが構築されています。
マルチモーダルAIは現在も自動運転や異常検知などさまざまなシーンで活用されていますが、今後は医療分野などでの活用が期待されています。
まとめ
生成AIは、AIが自ら学習を重ねることで全く新しいコンテンツを創造できるという特徴を有しています。
生成AIにはテキスト生成AI、画像・動画生成AI、音声生成AIと様々な種類があり、ビジネスや日常生活における作業の大幅な効率化、アイデア創出などに活用できる非常に便利なツールです。
その一方で真偽性や著作権問題、情報漏洩やサイバー攻撃への悪用の恐れなど、懸念事項もあるため慎重に活用しましょう。
生成系AIの活用を考えているなら「TACHIAGE」にご相談ください。
TACHIAGEでは、企業の戦略・企画やデジタル化、業務改革・IT構築、新規事業などのコンサルティングをいたします。