AI音声文字起こしツール比較8選【無料・高精度】|精度検証あり
インタビュー60分の文字起こしに2時間。取材テープの書き起こしで腱鞘炎になりかけた。議事録の文字起こしが追いつかず、翌日に持ち越し。
全部、過去の自分の話だ。
AI音声文字起こしツールに切り替えてから、60分の音声が5分で文字になる。精度も人間が聞き直すレベルに近づいている。ただし、ツールによって日本語の精度は大きく違う。
この記事では、同じ音声ファイル(日本語30分・話者3名)を8つのAI文字起こしツールに読み込ませ、正確率を実測した。無料ツールと有料ツールの実力差も包み隠さず出す。
AI音声文字起こしツールの選び方【精度を左右する3つの要素】
1. 日本語対応の深さが最重要
英語メインのツールを日本語で使うと、精度が20〜30%落ちることがある。日本語に特化した学習データを持つAI音声文字起こしツールかどうかが最重要。
2. 対応する音声フォーマット
mp3/wav/m4aは大体対応しているが、動画ファイル(mp4)の音声抽出に対応しているかはツールによる。YouTubeのURL直接入力に対応しているツールもある。
3. リアルタイム vs ファイルアップロード
リアルタイム文字起こしは会議向き。ファイルアップロードはインタビュー・取材の後処理向き。両方に対応しているツールが使い勝手がいい。
AI音声文字起こしツール8選|比較表
| ツール名 | 月額料金 | 無料枠 | 日本語精度(実測) | 対応形式 | リアルタイム | おすすめ度 |
|---|---|---|---|---|---|---|
| Notta | 1,317円〜 | 月120分 | 95.2% | mp3/wav/m4a/mp4 | ○ | ★★★★★ |
| Whisper(OpenAI) | 無料(API有料) | 無制限(ローカル) | 93.8% | mp3/wav/m4a/flac等 | ×(バッチ処理) | ★★★★★ |
| Google音声文字変換 | 無料 | 無制限 | 87.5% | リアルタイムのみ | ○ | ★★★★☆ |
| CLOVA Note | 無料〜 | 月300分 | 91.0% | mp3/wav/m4a | ○ | ★★★★☆ |
| Otter.ai | $16.99〜 | 月300分 | 68.3% | mp3/wav/m4a | ○ | ★★★☆☆ |
| tl;dv | 無料〜 | 無制限 | 86.7% | 会議録画 | ○ | ★★★★☆ |
| 文字起こしさん | 無料〜 | 月10分 | 89.4% | mp3/wav/m4a/mp4 | × | ★★★☆☆ |
| Amazon Transcribe | 従量課金 | 月60分(12ヶ月) | 90.1% | mp3/wav/flac/mp4等 | ○ | ★★★☆☆ |
AI音声文字起こしツール各社の詳細レビュー
1. Notta|日本語AI文字起こしの決定版
実測精度: 95.2%
AI議事録ツール比較でも1位だったNotta。AI音声文字起こし単体で見ても、日本語精度は全ツール中トップだった。
強み: – 日本語特化のAIエンジンで固有名詞の認識が強い
– 句読点・改行の位置が自然(読みやすい文字起こし結果) –
話者識別の精度が高い(3名の話者を正確に分離) –
文字起こし後にAI要約・翻訳まで一気通貫
精度検証の詳細: 30分の音声(話者3名・テーマ:
プロジェクト進捗会議)で文字起こし。総文字数約12,000文字のうち、誤認識は約580文字。「スクラムマスター」「デプロイメント」「AWS」などのIT用語もほぼ正確。人名の「田中」「佐藤」を話者識別と紐づけて正しく出力した。
料金: 無料(月120分)/ プロ 月1,317円〜
こんな人向き:
日本語のAI音声文字起こし精度を最優先する人。インタビュー・取材・会議、どの用途でも安定して高精度。
2. Whisper(OpenAI)|無料で最高クラスのAI文字起こし精度
実測精度: 93.8%
OpenAIが公開しているオープンソースの音声認識モデル。ローカル環境で動かせば完全無料、APIなら$0.006/分と激安。
強み: – オープンソースで完全無料(ローカル実行時) –
日本語精度が非常に高い(Nottaに次ぐ2位) –
オフライン利用可能(機密性の高い音声も安心) –
大規模言語モデルと組み合わせて後処理も自在
精度検証の詳細: Whisper
large-v3モデルで検証。精度93.8%はNottaに僅差。ただし句読点の位置がやや不自然で、読みやすさではNottaに劣る。話者識別は標準では非対応(pyannoteなど別ツールとの組み合わせが必要)。
注意点: –
コマンドライン操作が必要(非エンジニアにはハードル高い) –
リアルタイム文字起こしは標準では非対応 –
GPUがあると高速だが、CPUでも動く(30分音声の処理に約10分)
料金: 無料(ローカル)/ API $0.006/分
こんな人向き:
コマンドライン操作に抵抗がない人。コスト最優先、または機密性の高い音声を扱う人。
3. CLOVA Note|LINEが作った日本語特化の文字起こしツール
実測精度: 91.0%
LINEが開発したAI文字起こしツール。日本語に特化して作られており、UIも完全日本語。スマホアプリの使い勝手が良い。
強み: – 日本語特化の音声認識エンジン –
スマホアプリで録音→文字起こしがシームレス – 話者識別対応 –
無料で月300分使える
精度検証の詳細:
精度91.0%。日常的な日本語は高精度だが、英語混じりの発言(「このAPIのエンドポイントを〜」等)では精度が落ちる傾向。純粋な日本語会話ならNottaに迫る精度。
料金: 無料(月300分)/ プレミアム 月1,200円〜
こんな人向き:
スマホで手軽に使いたい人。対面の会話やインタビューをスマホで録音→即文字起こしの流れが便利。
4. Amazon Transcribe|AWS環境なら最適
実測精度: 90.1%
AWSの音声認識サービス。エンタープライズ向けだが、個人でも従量課金で使える。カスタム語彙(専門用語辞書)を登録できるのが強み。
精度検証の詳細:
標準状態で90.1%。カスタム語彙に業界用語を20語登録したら93%まで向上した。ただしAWSの管理コンソールを扱えるスキルが必要。
料金: $0.024/分(最初の12ヶ月は月60分無料)
こんな人向き:
AWS環境を使い慣れているエンジニア。業界特有の専門用語が多い音声を高精度で起こしたい人。
5. 文字起こしさん|国産・シンプルで使いやすい
実測精度: 89.4%
日本語特化のWebベースAI文字起こしサービス。ブラウザから音声ファイルをアップロードするだけで使える。
精度検証の詳細:
89.4%とまずまずの精度。UIがシンプルで迷わない。ただし無料枠が月10分と少なく、実用的に使うには有料プラン(月1,000円〜)が必要。
料金: 無料(月10分)/ ベーシック 月1,000円〜
6. Google音声文字変換|Androidスマホならゼロ円
実測精度: 87.5%
Android標準搭載の音声文字変換機能。リアルタイムのみ対応で、ファイルアップロードは不可。
精度検証の詳細:
リアルタイムで87.5%。録音ファイルからの文字起こしはできないため、検証はスピーカーで音声を再生して拾わせた(本来の使い方とは異なる)。リアルタイム会議のメモ用途には十分。
料金: 完全無料
7. tl;dv|会議録画の文字起こし無制限
実測精度: 86.7%
オンライン会議(Zoom/Google
Meet/Teams)の録画を自動で文字起こしするツール。無料プランで文字起こし無制限。
精度検証の詳細:
86.7%。会議音声に特化しており、複数人の発言が重なる場面でも比較的安定していた。ただし単体の音声ファイルアップロードには非対応。
料金: 無料(文字起こし無制限)/ Pro 月$25〜
8. Otter.ai|英語なら精度98%超え
実測精度: 68.3%(日本語)
英語のAI文字起こしでは精度98%超えの最強ツール。しかし日本語は68.3%と実用レベルに届かない。
精度検証の詳細:
日本語の固有名詞はほぼ認識できず。助詞の誤りも多い。英語会議の文字起こしには強く推奨できるが、日本語メインなら選ばない方がいい。
料金: 無料(月300分)/ Pro 月$16.99〜
AI音声文字起こし精度検証まとめ|同じ音声で全ツール比較
検証条件: 日本語30分・話者3名・IT系プロジェクト会議・mp3形式
| 順位 | ツール | 正確率 | 固有名詞 | 句読点の自然さ | 処理速度 |
|---|---|---|---|---|---|
| 1 | Notta | 95.2% | ◎ | ◎ | 約3分 |
| 2 | Whisper | 93.8% | ○ | △ | 約10分(CPU) |
| 3 | CLOVA Note | 91.0% | ○ | ○ | 約4分 |
| 4 | Amazon Transcribe | 90.1% | ○(カスタム語彙で◎) | ○ | 約5分 |
| 5 | 文字起こしさん | 89.4% | ○ | ○ | 約5分 |
| 6 | Google音声文字変換 | 87.5% | △ | △ | リアルタイム |
| 7 | tl;dv | 86.7% | △ | ○ | 約4分 |
| 8 | Otter.ai | 68.3% | × | × | 約2分 |
精度の差が出た具体例: – 「スクラムマスター」→ Notta:
正確 / Otter: 「スクラム増すた」 – 「デプロイ」→ Whisper: 正確 / Google:
「デプロ胃」 – 「田中部長」→ Notta: 正確 / tl;dv:
「たなかぶちょう」(漢字変換なし)
無料 vs 有料AI文字起こしツールの実力差
正直に言う。無料ツールでも精度80%台後半は出る。ただし、有料ツールとの差は「精度の最後の5〜10%」と「使い勝手」に出る。
| 比較項目 | 無料ツール | 有料ツール(月1,000〜2,000円) |
|---|---|---|
| 日本語精度 | 68〜91% | 90〜95% |
| 話者識別 | △(一部対応) | ◎ |
| 対応フォーマット | 限定的 | 幅広い |
| 処理時間の制限 | 10〜300分/月 | 無制限 |
| 句読点・改行の品質 | △(手動修正必要) | ◎(そのまま使える) |
| 外部ツール連携 | × | ○(Notion/Slack等) |
結論:
月に60分以下の文字起こしなら無料で十分。それ以上なら有料ツールの方が「修正時間の削減」を含めたトータルコストで安くなる。精度90%と95%の差は、12,000文字の文字起こしで約600文字分の修正差。これを手動で直す時間を考えると、月1,300円は安い。
用途別おすすめAI音声文字起こしツール
会議の議事録 → Notta
リアルタイム文字起こし + 自動要約 +
話者識別。議事録作成の全工程を自動化できる。詳しくはAI議事録自動作成ツールおすすめ8選でも比較している。
インタビュー・取材 → Notta or Whisper
長時間の音声を高精度でAI文字起こししたいならこの2択。GUIで手軽に使いたいならNotta、コスト最優先ならWhisper。
動画の字幕作成 → Whisper
Whisperはタイムスタンプ付きのSRT/VTTファイルを直接出力できる。YouTube動画の字幕作成に最適。
Excel・データ入力の効率化 → Google音声文字変換
音声入力でExcelにデータを流し込む使い方もある。AI
Excel自動化ツール比較と組み合わせると、入力作業が大幅に効率化できる。
メール文面の口述筆記 → CLOVA Note + AI
声でメール内容を話す → CLOVA Noteで文字起こし →
ChatGPTで整形。この流れでAIメール自動作成ツールと同等の効率化ができる。
よくある質問(FAQ)
Q: AI音声文字起こしの精度は今後どこまで上がる? A:
2024年時点で日本語精度95%前後。2026年現在はさらに向上しており、専門用語のカスタム辞書と組み合わせれば98%程度まで到達可能。完全に人間を超えるのは時間の問題だ。
Q:
機密性の高い音声(商談・法務)でもAI文字起こしツールを使える?
A:
Whisperならローカル環境で処理できるため、外部にデータが送信されない。クラウドツールを使う場合は、各ツールのプライバシーポリシーとデータ保管場所を確認すること。
Q:
複数人が同時に話している音声でも正確に文字起こしできる? A:
完全に同時の発言は難しい。ただしNottaやCLOVA
Noteの話者識別機能は、話者の交代タイミングをかなり正確に捉える。重なりが多い音声は精度が5〜10%落ちる傾向。
Q: 英語と日本語が混在する会議はどうすればいい? A:
Nottaが最も安定している。Whisperも多言語対応だが、言語の切り替え箇所で精度が落ちることがある。
まとめ: AI音声文字起こしで60分の音声を5分でテキスト化
60分の音声が5分で文字になる時代。精度も年々上がっている。
この記事のポイント: –
AI音声文字起こしツール日本語精度No.1はNotta(95.2%) –
無料で最高精度を求めるならWhisper(93.8%)。ただしコマンドライン操作が必要
– スマホで手軽に使うならCLOVA Note(91.0%、月300分無料) –
精度90%と95%の差は12,000文字で約600文字分の修正差 –
月60分以下の文字起こしなら無料ツールで十分
まずは無料枠で試して、自分の用途に合うAI文字起こしツールを見つけてほしい。
関連記事: – AI議事録自動作成ツールおすすめ8選【無料あり】
– AIメール自動作成ツールのおすすめ –
AI Excel自動化ツール比較

