
今回は、マイクロソフトが公開したオープンソースの音声AIプロジェクト「VibeVoice」をベースにした Windows 向け音声入力アプリ「Vibing」を実際に使ってみました。結論から言うと、無料でここまでできるのかとちょっとびっくりしたので、簡単にインプレッションをまとめておきます。
ポイント:「VibeVoice」はマイクロソフトが開発した音声AI技術(オープンソース)です。「Vibing」はその技術を活用してコミュニティが開発した Windows/Mac 向けのデスクトップアプリです。VibingはMicrosoftの公式アプリではなく、VibeVoiceのエンジンを利用した別開発のサードパーティ製ツールです。どちらも無料で使えます。
そもそも VibeVoice って何?
VibeVoice はマイクロソフトが開発・公開した音声AIのオープンソースフレームワークです。GitHub のスター数がすでに 3.3 万を超えており、音声認識(ASR)と音声合成(TTS)の両方を備えているのが特徴です。
なかでも個人ユーザーにとって実用的なのが「VibeVoice-ASR」と呼ばれる音声文字起こしの仕組みです。最大 60 分の音声を一発で処理でき、誰がいつ何を話したかを構造的に書き起こせるように設計されています。50 以上の言語に対応しており、日本語ももちろん含まれています。
Vibing — 実際に使うのはこちら
VibeVoice は研究フレームワークなのでそのまま一般ユーザーが触るには少しハードルがあります。ただ、オープンソースコミュニティがこの ASR エンジンを使って「Vibing」という名前の Windows/Mac 向けデスクトップアプリを作ってくれました。こちらが実際に日常使いできる形のツールです。
▲ Vibing のホーム画面。Ctrl+Win を押しながら話すだけで文字起こしが始まります。
基本的な使い方はとてもシンプルです。ショートカットキーを押しながら話して、離したらカーソルのある場所にテキストが貼り付けられる、それだけです。メモ帳でも、ブラウザでも、Word でも、どんなソフトを使っていても関係なく動いてくれます。
実際に触ってみてよかった点
1. 文字起こしの精度が高い
日本語の変換精度については、以前試した無料の音声入力ツールと比べてもかなり精度が高い印象でした。固有名詞や専門用語が多い場面でも、後述するホットワードを設定しておけばほぼ問題ありません。
2. ホットワード(辞書機能)が便利
▲ Hotwords 設定画面。固有名詞や専門用語を登録しておくと認識精度が上がります。
設定画面から「Hotwords」に単語を登録しておくと、固有名詞や難しい専門用語の誤変換がぐっと減ります。私の場合は自分の名前「本田秀行」を登録しているので、音が似た別の漢字に変換されることがなくなりました。業種によっては商品名や社名を登録しておくと便利だと思います。
3. AI テキスト整形機能がある
設定を見ると「AI Text Polishing」というオプションがあって、これを有効にすると GPT を使って音声認識の結果を整形してくれます。具体的には話し言葉特有の「えー」「あの」といったフィラー語の除去や、同音異義語の修正などを自動でやってくれます。口語でしゃべった内容がそのままきれいな文章になって出てくるので、ブログのメモ書きや議事録の下書きには相当使えると感じました。
4. リアルタイム翻訳ができる
「Translate」機能を使うと、日本語で話した内容をそのまま英語(またはほかの言語)にリアルタイムで変換して貼り付けてくれます。試しに日本語で話したら、きれいな英文が出てきてちょっと驚きました。外国語のお客様とやり取りする場面や、英語のメールを書くときの下書き作成なんかにも応用できそうです。
▲ Settings 画面。AI Text Polishing をオンにすると話し言葉がきれいな文章に整形されます。
5. 音声データを保存しない
これは個人的にかなりありがたいと感じた点です。多くの音声入力アプリは録音データをクラウドに送ったりローカルに残したりする仕組みがありますが、Vibing は文字起こし済みのテキストだけを履歴に残す設計になっています。音声そのものは残らないので、プライバシーの面でも安心して使えます。
6. 履歴が確認できる
▲ History 画面。整形後のテキストと ASR の生ログが両方確認できます。
History 画面では、整形後のきれいなテキストと、AI 整形前の音声認識の生ログ(ASR ログ)の両方を見比べられます。「あれ、ちゃんと認識されてた?」と確認したいときに便利です。
気になった点・課題
現時点(v0.1.0)で気になった点もあります。使う前に把握しておくと安心です。
- 文字起こしが完了して貼り付けるまでに数秒の間があります。その間に別のウィンドウをクリックしてしまうと、テキストの貼り付け先が変わってしまうことがあります。
- 長く話しすぎると内容が省略される場合があるようです。ある程度の長さで区切りながら話す習慣をつけると安定します。
- 日本語の認識は十分使えるレベルですが、英語と比べると多少精度が落ちる場面はあります。ホットワード登録でかなり改善できます。
- ローカルサーバーとして動かして議事録サーバーのように使う構成もできるそうですが、そちらは Docker と GPU が必要でかなり上級者向けです。普通に Windows アプリとして使う分には関係ありません。
- CPU・GPU 性能への依存:音声認識の処理はローカルの CPU に依存します。古めのパソコンや処理能力の低いミニ PC では変換に時間がかかったり、動作が重くなる可能性があります。Core i5 以上のある程度スペックのある環境での利用が現実的です。
- AI Text Polishing は外部 API を利用:整形機能(AI Text Polishing)は GPT を使っているため、この機能をオンにすると音声認識の結果が外部サーバーに送信されます。機密性の高い内容を話す場面では、この機能をオフにして使うほうが安心です。音声データ自体は残りませんが、テキスト化された内容が外部 API に渡る点は把握しておく必要があります。
- クラウド依存の有無:音声認識(ASR)そのものはローカルで処理されますが、AI Text Polishing をオンにした場合は前述の通り外部 API との通信が発生します。オフラインで完全にローカル完結させたい場合は、この機能を無効にして使うことになります。
スペックと機能まとめ
| 項目 | 内容 |
|---|---|
| 価格 | 無料(オープンソース) |
| 対応 OS | Windows / macOS |
| 基盤技術 | Microsoft VibeVoice-ASR(7B モデル) |
| 対応言語 | 50 以上の言語(日本語含む) |
| 翻訳機能 | あり(リアルタイム翻訳・貼り付け) |
| AI テキスト整形 | GPT 利用(オン/オフ切り替え可) |
| ホットワード辞書 | あり(固有名詞・専門用語の登録) |
| 音声データ保存 | なし(テキストのみ履歴に残る) |
| バージョン(確認時) | v0.1.0 |
こんな人に向いている
- キーボードを打つのが面倒で、しゃべって文章を作りたい方
- 議事録や打ち合わせメモを素早くまとめたい方
- ブログや SNS 投稿の下書きを音声で作りたい方
- 外国語対応が必要な場面で簡易翻訳機能を使いたい方
- 有料の音声入力ツールに月額を払っているが、乗り換えを検討している方
Vibing は VibeVoice という本格的な音声 AI をベースにしているだけあって、無料のツールとしては異例なほど完成度が高いと感じました。特にホットワード機能と AI テキスト整形の組み合わせは、実際の業務でも十分使えるレベルです。現時点では v0.1.0 とまだ初期バージョンですが、このまま開発が進めば Windows の標準機能として組み込まれてもおかしくない、そういうポテンシャルを感じました。
有料の音声入力ソフトを使っている方は一度試してみる価値は十分あると思います。インストールして使い始めるまでの手間もほとんどかからないので、気軽に試してみてください。
参考
・Microsoft VibeVoice 公式リポジトリ:https://github.com/microsoft/VibeVoice
・Vibing(Windows / macOS アプリ)公式サイト:https://vibingjustspeakit.github.io/Vibing/














