録音した音声を、自動で正確に文字起こしできたら──
インタビュー、講演、会議メモ、家族の思い出まで、使い道は無限大です。
今回は、OpenAIの音声認識モデル「Whisper」の使い方を、完全初心者向けに解説します。
Whisperとは?
Whisperは、OpenAIが開発した高精度な音声認識AIモデルです。
日本語を含む多言語に対応し、手元の音声ファイルを自動でテキスト化できます。
- 対応形式:MP3, WAV, M4A など
- 対応言語:日本語、英語、他50言語以上
- 動作環境:Windows / Mac / Linux(Pythonが使える環境)
Whisperの使い方(コマンドライン編)
ここでは、**Whisper公式の使い方(Python経由)**をご紹介します。
1. Whisperのインストール
Pythonの環境で、以下を実行します:
pip install git+https://github.com/openai/whisper.git
必要に応じて、FFmpegもインストール:
brew install ffmpeg # Mac
choco install ffmpeg # Windows(Chocolateyが必要)
2. コマンドで文字起こしする
以下のコマンドをターミナルで実行するだけです:
whisper "sample.m4a" --language Japanese --model medium --output_format txt --output_dir "C:\Users\owner\Desktop"
オプション解説(詳しく知りたい方へ)
"sample.m4a" → 変換したい音声ファイル
--language Japanese → 音声の言語を指定(日本語)
--model medium → 使用モデル(他に base, small, large などあり)
--output_format txt → 出力形式(txt, srt, vttなど選べる)
--output_dir → 出力先フォルダのパス
3. 出力されたファイルを確認
指定したフォルダに、以下のようなテキストファイルが生成されます:
sample.txt
(プレーンテキスト)sample.srt
(字幕ファイル)※オプション指定時
よくある質問
Q. Whisperは無料で使えるの?
はい、Whisperは完全無料のオープンソースツールです。誰でも自由にインストールして使えます。
Q. スマホでも使えますか?
Whisper自体はPC向けのツールですが、録音だけスマホで行い、後からPCで文字起こしする運用がおすすめです。
まとめ
Whisperは、高性能かつ手軽に使える音声文字起こしツールです。
Python環境に慣れていない方でも、1度セットアップすればあとは1行コマンドで完結。
ぜひ、録音した講演・会話・思い出などを文字として残す新習慣にお役立てください。