OpenAIのAPIを活用すればGPT-3やGPT-4などの強力な言語モデルを使って、複雑な言語タスクを実行できます。
テキスト生成や関数呼び出し、画像生成などの多様な機能が提供されています。
その中の一つに、「テキストから音声へ、そして音声からテキスト」があります。文字通り、テキストを音声に変換することができる機能になります。
一部の講座ではこの機能を利用し、Google Colaboratory(以下:Colab)にて講座の台本から音声ファイルを作成し、それを元に動画を作成・編集し、公開しています。
本記事では、OpenAIのAPIを利用しテキストファイルに書かれた文章を音声に変換するまでのフローのお話をしようと思います。
1.テキストを用意
読み上げて欲しいテキストファイル(画像例:test.txt)を準備します。
中身は講座「実践ChatGPT活用入門- APIを使った自動化とプロンプトエンジニアリング」のセクション0の台本から一部を抜粋したものであり、実際にこの内容で音声化し、活用しています。
英語ベースの音声モデルを使用しているので、英語の発音は得意でもたまに不得意なのかうまくいかないことがあります。
漢字の読み上げ、特に数字など、複数の読み方がありどちらとも使われることの多いものの場合、意図していない方の読み方が発音で出力されてしまいます。
その場合は事前にひらがなにしておくことで解消されますが、事前に対策できないものもあります。
時々ではありますが読み間違いや脱字した状態(例えば、「~することができる」という文章が「~するこができる」等のように一文字読み飛ばされてしまう状態)で発音されていることがあります。
対応としては、再度出力、もしくは該当箇所を"「」"で括り強調しています。
テキストファイルから音声への変換機能は便利ですが、使用するにあたって人手による音声の確認やモデルが不得意とする部分への基準となる作成ファイルへの工夫が必要不可欠です。
根気強く修正していきましょう。
2.Googleドライブへ該当ファイルをアップロード
任意のアカウントでGoogleドライブにテキストファイルをアップロードします。
3.Colabでプログラムを動かす
まずColabについて簡単な概要を紹介します。
Colabは、Googleが提供するクラウドサービスで、ブラウザからPythonを実行できるプラットフォーム。Jupyter Notebookの技術をベースに、機械学習やデータ分析の分野で特に人気があります。
【Google Colabの特徴】
無料アクセス: 基本的な使用は無料、GPUやTPUを含む計算資源へのアクセスが可能。
クラウドベース: インストールが不要、ブラウザから直接アクセスして使用。プロジェクトはGoogleドライブに保存されるため、どこからでもアクセスできます。
共有と協力: Googleドキュメントやスプレッドシートと同様に、Colabノートブックは他のユーザーと簡単に共有でき、リアルタイムでの共同作業が可能です。
GPUとTPUのサポート: 機械学習のトレーニングには時間がかかることが多いですが、Colabでは無料でGPUやTPUを利用して処理速度を大幅に向上させることができます。
教育と研究のサポート: 教育や研究目的で広く使用されており、多くのオープンソースプロジェクトやチュートリアルがColabを利用しています。
利用方法
Google Colabを使用するには、Googleアカウントが必要です。
voice.ipynbという名前のノートブックを普段音声変換の際に使っているので、開いてみました。
最初から用意されているわけではなく、私が作成したノートブックになります。
開くと既に書かれたプログラムがあって、左上の開始ボタンを押すことで実行されるようになっています。
エラーが出た際には赤く表示されます。今回の場合、きちんとファイル名が指定できていなかったようでしたので、修正して再実行しました。
【Assistants playgroundとは】
OpenAIが提供する製品の一つで、ユーザーがOpenAIの言語モデル(たとえばGPT-4など)と直接対話できるウェブベースのインターフェイスです。
今回使っているプログラムも、「音声出力してほしい」「ここを書き直して」等の対話を繰り返し、出力されたものを使用しています。
4.出力結果の確認
プログラムに指定した出力場所、今回の場合はGoogleドライブでアップロードしたテキストファイルと同じ場所を確認してみます。
音声ファイル(output.mp3)が出力されていたので、中身を確認します。 問題なく発声できているようであれば動画に使用しています。
できていなければ1.テキストを用意へ戻り、うまくいくまで繰り返していきます。
まとめ
AIを活用するプロセスでは技術が自己完結型であるかのように思われがちですが、実際にはその有効性を維持し最大限に活用するためには繰り返し人の介入が必要になることが多いです。
今回紹介した音声作成までの流れも同じです。うまくいくまで繰り返し台本を調整し、出力をしています。
一見手間がかかっているようにも見える作業ですが、実際にプロでない人間が発音することでの労力や、専用の環境がないことによる(雑音が入り込んでしまう)問題等はこうした技術に任せることで解消されています。
おかげで講座受講者の方に快適な音声を届けることができています。
こうした協働によって初めて、真のポテンシャルを引き出すことができるようになるので、皆さんも工夫して使ってみてください。