ローカルAI音声入力Macアプリが完成しました。
以前も一度挑戦したことがあったのですが、そのときは途中で断念。
今回は改めて作り直し、ようやく自分でも満足できる形まで仕上げることができました。

このアプリの名前は LocalVoiceFlow。
macOS のメニューバーに常駐し、ショートカットキーで録音を開始し、ローカルAIで文字起こしし、そのまま元の入力欄に自動貼り付けまで行える音声入力アプリ です。
しかも今回うれしかったのは、ただ作れただけではなく、実際に使ってみると、これまで使っていた月額制の有料アプリよりも、場面によっては精度が高いと感じられることがあったことです。
以前は月額2,000円ほどの有料サービスを使っていましたが、自分でこのアプリを作ったことで、同じような音声入力環境をこれからはほぼ無料で使い続けられる状態を作ることができました。
LocalVoiceFlowとは?
LocalVoiceFlow は、macOS のメニューバーに常駐し、好きなキー操作で録音を始め、WhisperKit でローカル文字起こしを行い、元の入力欄へ自動で戻って貼り付けまでこなす音声入力アプリです。
さらに、貼り付けに失敗しても履歴とクリップボードに自動退避されるため、話した内容が消えにくいのも大きな特徴です。
このアプリは、Mac上で動くローカルAI音声入力アプリです。
音声認識には OpenAI Whisper 系モデル を使い、基本的な変換処理は端末内で完結します。
macOS標準の音声入力は、カーソルのある場所に音声をそのまま入力できる便利な標準機能です。
一方で LocalVoiceFlow は、ローカルAIで文字起こしした結果をベースに、話し言葉を読みやすい文章に整えたり、不要な言い回しを減らしたり、固有名詞や表記ゆれを補正しやすくしたりと、「入力後の整えやすさ」 まで含めて設計している点が特徴です。
標準機能を単純に置き換えるというより、自分の用途に合わせて最適化した音声入力環境を目指して作ったアプリです。
なぜ作ろうと思ったのか
私はこれまで、同じような音声入力系の有料アプリをいくつか使ってきました。
実際、かなり完成度が高く、便利だと感じるものもありました。
ただ一方で、
- 月額料金がかかる
- 自分に必要な挙動に細かく合わせにくい
- ローカル完結ではないものもある
- もっと自分好みに調整したくなる
という気持ちもありました。
そこで今回、せっかくなら自分で作ってみようと思い、ローカルAIベースで音声入力アプリを形にしてみました。
その結果、自分の使い方に合わせて細かく最適化できるぶん、これまで使っていた有料サービスよりも、場面によってはこちらのほうが使いやすく、精度が高いと感じられるものになりました。
LocalVoiceFlowでできること
1. メニューバー常駐で、いつでもすぐ使える
LocalVoiceFlow は macOS のメニューバーに常駐します。
右上のアイコンからすぐに開けて、メニューバーから録音開始・停止や設定画面の呼び出しができます。
常用を前提に、できるだけ操作回数を減らした構成にしています。
2. ショートカットキーで録音開始・停止
あらかじめ選んだショートカットキーで録音を開始し、再度同じ操作で停止できます。
たとえば Controlキーを2回押す といった操作を割り当てて、キーボードからすぐ使えるようにしています。
設定したショートカットキーを押すと録音を開始し、もう一度押すと停止して、文字起こし結果が自動で貼り付けられるので、マウスに手を伸ばさなくても使えます。
3. ローカルAIで文字起こし
文字起こしは WhisperKit を使ったローカル処理です。
モデルは tiny / base / small を切り替えられ、M3 / 8GB Mac を想定して、日本語では使いやすいバランスになるよう調整しています。
4. 話し言葉を整えやすい
単なる文字起こしだけでなく、
- フィラー除去
- 置換辞書による補正
- 表記ゆれの統一
- 固有名詞の補正
などを加えやすいようにしてあります。
音声入力は「認識できるか」だけでなく、そのあとそのまま使えるかがかなり重要です。
LocalVoiceFlow は、その点を強く意識しています。
5. 元の入力欄に自動で戻って貼り付け
録音前に文字を入力していたアプリに戻って、そのまま結果を自動貼り付けできるようにしています。
メモ、ブラウザ、チャット欄など、普段の作業の流れの中で使えるようにしたかったので、この部分はかなり重視しました。
6. 貼り付けに失敗しても内容が消えない
自動貼り付けは便利ですが、環境によっては失敗することもあります。
そこで、結果は履歴とクリップボードにも退避するようにし、話した内容が消えにくい設計にしています。
主な機能
LocalVoiceFlow には、音声入力をできるだけスムーズに使うための基本機能をひと通りまとめています。
- メニューバー常駐
macOS のメニューバーに常駐し、必要なときにすぐ呼び出せます。 - ショートカットキーで録音開始・停止
あらかじめ設定したキー操作で録音を開始し、同じ操作で停止できます。キーボード中心で扱えるため、作業の流れを止めにくいのが特徴です。 - ローカルAIによる文字起こし
WhisperKit を使ったローカル文字起こしに対応しており、音声を端末内でテキスト化できます。 - 話し言葉を整えやすい補正機能
文字起こし結果をそのまま使うだけでなく、不要な言い回しの整理や表記の補正をしやすいように設計しています。 - 元の入力欄への自動貼り付け
録音前に使っていたアプリへ戻り、そのまま入力欄に反映できるようにしています。メモ、ブラウザ、チャットなど、普段の作業の中で使いやすい構成です。 - 履歴保存
文字起こし結果は履歴として残せるため、あとから見返したり、必要に応じて再利用したりできます。 - 貼り付け失敗時の退避
もし自動貼り付けがうまくいかなかった場合でも、結果が消えにくいように退避できる仕組みを入れています。 - 権限・録音状態の確認
マイクや入力補助まわりの状態、録音状況などを確認しやすくしており、トラブル時にも原因を追いやすくしています。 - 使いやすさを意識したUI
日常的に使うことを前提に、状態が見やすく、必要な操作にすぐ触れられるUIにしています。
このアプリのよかったところ
今回実際に作ってみて、特によかったのは次の3点です。
1. 毎月の固定費がほぼなくなる
今まで月額2,000円前後の有料サービスを使っていたので、年間で見るとかなりのコストになっていました。
それが、ローカルで自分用に作れたことで、今後はほぼ無料で使い続けられる環境になったのは大きいです。
2. 自分の使い方に合わせて最適化できる
既製品は完成度が高い一方で、どうしても「万人向け」です。
でも自作なら、
- よく使うキー操作
- 自分の話し方
- 固有名詞
- 文章の整え方
- UIの見せ方
まで、自分向けに寄せられます。
3. 思った以上に精度が高かった
ここが一番うれしかった点です。
正直、最初は「ローカルでそこそこ使えれば十分かな」と思っていました。
でも実際に使ってみると、場面によっては今まで使っていた有料アプリよりも精度が高いと感じることがあったので、かなり手応えがありました。
今のところ、少なくとも自分の用途ではかなり満足しています。
こんな人にはかなり向いていると思う
LocalVoiceFlow は、特に次のような人には相性がいいと思います。
- Macで音声入力をもっと快適にしたい人
- ローカルAIを活用したい人
- 毎月のサブスク費用を減らしたい人
- ブログやメモを音声で高速に書きたい人
- 自分専用に最適化した入力環境を作りたい人
- 標準の音声入力より、もう少し整いやすい結果がほしい人
今後について
今後は、必要に応じてさらに機能追加も考えています。
ただ、まずは今回作ったこの形だけでも、かなり実用的なものになりました。
「ローカルAIでここまでできるんだな」と実感できたのは、個人的にもかなり大きな収穫でした。
以前は途中で断念したこともあったので、今回こうして形にできたのは本当にうれしいです。
まとめ
LocalVoiceFlow は、Mac上で動くローカルAI音声入力アプリです。
ショートカットキーで録音を始め、WhisperKit でローカル文字起こしを行い、補正を加えたうえで元の入力欄へ自動貼り付けまで行えます。
しかも、貼り付けに失敗しても履歴やクリップボードに退避されるため、話した内容が消えにくい設計にしています。
これまで月額制の有料サービスを使っていた中で、「自分でもここまで作れるんだ」と実感できたのはかなり大きかったです。
そして実際には、無料に近い運用ができるだけでなく、場面によっては今まで使っていた有料アプリより精度が高いと感じられることもありました。
ローカルAIを活用したMacアプリの可能性は、思っていた以上に大きいと感じています。
追記:OpenAI対応と第2段AI補正を追加して、精度がかなり向上しました
このアプリは最初、できるだけローカル中心で使えるように作っていたのですが、実際にしばらく使ってみると、やはり長文や文脈が複雑な内容では、まだ誤変換や不自然な表現が残る場面がありました。
そこで今回、新たに OpenAI を使った高精度な文字起こし機能 を追加し、さらにそのあとにもう一度文章を見直して整える 「第2段AI補正」 も使えるようにしました。
これによって、単純な音声認識だけでは直しきれなかった部分、たとえば文脈に合わない誤変換、不自然な英語の混入、句読点の乱れなどが、以前よりかなり自然に整うようになりました。
特に大きいのは、
「ただ文字を起こす」だけではなく、
文脈全体を見ながら、意味をできるだけ変えずに忠実に補正する流れ
を入れられるようになったことです。
これによって、実用性はかなり上がったと感じています。
もちろん、OpenAIを使うとAPI料金はかかります。
ただしこの機能は オプションでオン・オフ可能 ですし、さらに 仕上げ用のモデルも選べる ようにしてあります。
高品質を優先する設定にもできますし、費用を抑えたい場合は軽いモデルを選ぶこともできます。
つまり、精度重視にも、コスト重視にも、自分に合った形で調整できます。
このアプリは、ローカル中心で使える良さを残しつつ、必要な場合はOpenAIによってさらに精度を高められる形へ進化しました。
実際に使いながら気づいた問題を一つずつ改善してきたので、以前よりかなり実戦的なアプリになってきたと思います。
今後も、使っていて気になったところは継続的に改善していく予定です。
単なる試作ではなく、本当に日常で使える音声入力アプリ として、少しずつ完成度を高めていきたいと思っています。



Conversation
Be the First Voice
読んだだけで終わらせないでください。
感じたことを、コメント・発信・メモなど、何かの形で外に出してみてください。
反応した瞬間から、変化は始まります。
この場所に、最初の感想や気づきをそっと残せます。