Imidef Blog

Whisperで文字起こし

録音した音声を、自動で正確に文字起こしできたら──
インタビュー、講演、会議メモ、家族の思い出まで、使い道は無限大です。
今回は、OpenAIの音声認識モデル「Whisper」の使い方を、完全初心者向けに解説します。


Whisperとは?

Whisperは、OpenAIが開発した高精度な音声認識AIモデルです。
日本語を含む多言語に対応し、手元の音声ファイルを自動でテキスト化できます。


Whisperの使い方(コマンドライン編)

ここでは、**Whisper公式の使い方(Python経由)**をご紹介します。

1. Whisperのインストール

Pythonの環境で、以下を実行します:

pip install git+https://github.com/openai/whisper.git 

必要に応じて、FFmpegもインストール:

brew install ffmpeg  # Mac
choco install ffmpeg # Windows(Chocolateyが必要)

2. コマンドで文字起こしする

以下のコマンドをターミナルで実行するだけです:

whisper "sample.m4a" --language Japanese --model medium --output_format txt --output_dir "C:\Users\owner\Desktop"

オプション解説(詳しく知りたい方へ)

"sample.m4a"           → 変換したい音声ファイル
--language Japanese     → 音声の言語を指定(日本語)
--model medium          → 使用モデル(他に base, small, large などあり)
--output_format txt     → 出力形式(txt, srt, vttなど選べる)
--output_dir            → 出力先フォルダのパス

3. 出力されたファイルを確認

指定したフォルダに、以下のようなテキストファイルが生成されます:


よくある質問

Q. Whisperは無料で使えるの?
はい、Whisperは完全無料のオープンソースツールです。誰でも自由にインストールして使えます。

Q. スマホでも使えますか?
Whisper自体はPC向けのツールですが、録音だけスマホで行い、後からPCで文字起こしする運用がおすすめです。


まとめ

Whisperは、高性能かつ手軽に使える音声文字起こしツールです。
Python環境に慣れていない方でも、1度セットアップすればあとは1行コマンドで完結。
ぜひ、録音した講演・会話・思い出などを文字として残す新習慣にお役立てください。