ローカルAI音声入力Macアプリ「LocalVoiceFlow」を作りました。月額サービスから卒業し、ほぼ無料で高精度な音声入力環境を実現

ローカルAI音声入力Macアプリが完成しました。
以前も一度挑戦したことがあったのですが、そのときは途中で断念。
今回は改めて作り直し、ようやく自分でも満足できる形まで仕上げることができました。

このアプリの名前は LocalVoiceFlow。
macOS のメニューバーに常駐し、ショートカットキーで録音を開始し、ローカルAIで文字起こしし、そのまま元の入力欄に自動貼り付けまで行える音声入力アプリです。

しかも今回うれしかったのは、ただ作れただけではなく、実際に使ってみると、これまで使っていた月額制の有料アプリよりも、場面によっては精度が高いと感じられることがあったことです。

以前は月額2,000円ほどの有料サービスを使っていましたが、自分でこのアプリを作ったことで、同じような音声入力環境をこれからはほぼ無料で使い続けられる状態を作ることができました。

LocalVoiceFlowとは？

LocalVoiceFlow は、macOS のメニューバーに常駐し、好きなキー操作で録音を始め、WhisperKit でローカル文字起こしを行い、元の入力欄へ自動で戻って貼り付けまでこなす音声入力アプリです。
さらに、貼り付けに失敗しても履歴とクリップボードに自動退避されるため、話した内容が消えにくいのも大きな特徴です。

このアプリは、Mac上で動くローカルAI音声入力アプリです。
音声認識には OpenAI Whisper 系モデル を使い、基本的な変換処理は端末内で完結します。

macOS標準の音声入力は、カーソルのある場所に音声をそのまま入力できる便利な標準機能です。
一方で LocalVoiceFlow は、ローカルAIで文字起こしした結果をベースに、話し言葉を読みやすい文章に整えたり、不要な言い回しを減らしたり、固有名詞や表記ゆれを補正しやすくしたりと、「入力後の整えやすさ」 まで含めて設計している点が特徴です。

標準機能を単純に置き換えるというより、自分の用途に合わせて最適化した音声入力環境を目指して作ったアプリです。

なぜ作ろうと思ったのか

私はこれまで、同じような音声入力系の有料アプリをいくつか使ってきました。
実際、かなり完成度が高く、便利だと感じるものもありました。

ただ一方で、

月額料金がかかる
自分に必要な挙動に細かく合わせにくい
ローカル完結ではないものもある
もっと自分好みに調整したくなる

という気持ちもありました。

そこで今回、せっかくなら自分で作ってみようと思い、ローカルAIベースで音声入力アプリを形にしてみました。

その結果、自分の使い方に合わせて細かく最適化できるぶん、これまで使っていた有料サービスよりも、場面によってはこちらのほうが使いやすく、精度が高いと感じられるものになりました。

LocalVoiceFlowでできること

1. メニューバー常駐で、いつでもすぐ使える

LocalVoiceFlow は macOS のメニューバーに常駐します。
右上のアイコンからすぐに開けて、メニューバーから録音開始・停止や設定画面の呼び出しができます。
常用を前提に、できるだけ操作回数を減らした構成にしています。

2. ショートカットキーで録音開始・停止

あらかじめ選んだショートカットキーで録音を開始し、再度同じ操作で停止できます。
たとえば Controlキーを2回押す といった操作を割り当てて、キーボードからすぐ使えるようにしています。

設定したショートカットキーを押すと録音を開始し、もう一度押すと停止して、文字起こし結果が自動で貼り付けられるので、マウスに手を伸ばさなくても使えます。

3. ローカルAIで文字起こし

文字起こしは WhisperKit を使ったローカル処理です。
モデルは tiny / base / small を切り替えられ、M3 / 8GB Mac を想定して、日本語では使いやすいバランスになるよう調整しています。

4. 話し言葉を整えやすい

単なる文字起こしだけでなく、

フィラー除去
置換辞書による補正
表記ゆれの統一
固有名詞の補正

などを加えやすいようにしてあります。

音声入力は「認識できるか」だけでなく、そのあとそのまま使えるかがかなり重要です。
LocalVoiceFlow は、その点を強く意識しています。

5. 元の入力欄に自動で戻って貼り付け

録音前に文字を入力していたアプリに戻って、そのまま結果を自動貼り付けできるようにしています。
メモ、ブラウザ、チャット欄など、普段の作業の流れの中で使えるようにしたかったので、この部分はかなり重視しました。

6. 貼り付けに失敗しても内容が消えない

自動貼り付けは便利ですが、環境によっては失敗することもあります。
そこで、結果は履歴とクリップボードにも退避するようにし、話した内容が消えにくい設計にしています。

主な機能

LocalVoiceFlow には、音声入力をできるだけスムーズに使うための基本機能をひと通りまとめています。

メニューバー常駐
macOS のメニューバーに常駐し、必要なときにすぐ呼び出せます。
ショートカットキーで録音開始・停止
あらかじめ設定したキー操作で録音を開始し、同じ操作で停止できます。キーボード中心で扱えるため、作業の流れを止めにくいのが特徴です。
ローカルAIによる文字起こし
WhisperKit を使ったローカル文字起こしに対応しており、音声を端末内でテキスト化できます。
話し言葉を整えやすい補正機能
文字起こし結果をそのまま使うだけでなく、不要な言い回しの整理や表記の補正をしやすいように設計しています。
元の入力欄への自動貼り付け
録音前に使っていたアプリへ戻り、そのまま入力欄に反映できるようにしています。メモ、ブラウザ、チャットなど、普段の作業の中で使いやすい構成です。
履歴保存
文字起こし結果は履歴として残せるため、あとから見返したり、必要に応じて再利用したりできます。
貼り付け失敗時の退避
もし自動貼り付けがうまくいかなかった場合でも、結果が消えにくいように退避できる仕組みを入れています。
権限・録音状態の確認
マイクや入力補助まわりの状態、録音状況などを確認しやすくしており、トラブル時にも原因を追いやすくしています。
使いやすさを意識したUI
日常的に使うことを前提に、状態が見やすく、必要な操作にすぐ触れられるUIにしています。

このアプリのよかったところ

今回実際に作ってみて、特によかったのは次の3点です。

1. 毎月の固定費がほぼなくなる

今まで月額2,000円前後の有料サービスを使っていたので、年間で見るとかなりのコストになっていました。
それが、ローカルで自分用に作れたことで、今後はほぼ無料で使い続けられる環境になったのは大きいです。

2. 自分の使い方に合わせて最適化できる

既製品は完成度が高い一方で、どうしても「万人向け」です。
でも自作なら、

よく使うキー操作
自分の話し方
固有名詞
文章の整え方
UIの見せ方

まで、自分向けに寄せられます。

3. 思った以上に精度が高かった

ここが一番うれしかった点です。
正直、最初は「ローカルでそこそこ使えれば十分かな」と思っていました。
でも実際に使ってみると、場面によっては今まで使っていた有料アプリよりも精度が高いと感じることがあったので、かなり手応えがありました。
今のところ、少なくとも自分の用途ではかなり満足しています。

こんな人にはかなり向いていると思う

LocalVoiceFlow は、特に次のような人には相性がいいと思います。

Macで音声入力をもっと快適にしたい人
ローカルAIを活用したい人
毎月のサブスク費用を減らしたい人
ブログやメモを音声で高速に書きたい人
自分専用に最適化した入力環境を作りたい人
標準の音声入力より、もう少し整いやすい結果がほしい人

今後について

今後は、必要に応じてさらに機能追加も考えています。
ただ、まずは今回作ったこの形だけでも、かなり実用的なものになりました。

「ローカルAIでここまでできるんだな」と実感できたのは、個人的にもかなり大きな収穫でした。
以前は途中で断念したこともあったので、今回こうして形にできたのは本当にうれしいです。

まとめ

LocalVoiceFlow は、Mac上で動くローカルAI音声入力アプリです。
ショートカットキーで録音を始め、WhisperKit でローカル文字起こしを行い、補正を加えたうえで元の入力欄へ自動貼り付けまで行えます。

しかも、貼り付けに失敗しても履歴やクリップボードに退避されるため、話した内容が消えにくい設計にしています。

これまで月額制の有料サービスを使っていた中で、「自分でもここまで作れるんだ」と実感できたのはかなり大きかったです。
そして実際には、無料に近い運用ができるだけでなく、場面によっては今まで使っていた有料アプリより精度が高いと感じられることもありました。

ローカルAIを活用したMacアプリの可能性は、思っていた以上に大きいと感じています。

追記：OpenAI対応と第2段AI補正を追加して、精度がかなり向上しました

このアプリは最初、できるだけローカル中心で使えるように作っていたのですが、実際にしばらく使ってみると、やはり長文や文脈が複雑な内容では、まだ誤変換や不自然な表現が残る場面がありました。

そこで今回、新たに OpenAI を使った高精度な文字起こし機能 を追加し、さらにそのあとにもう一度文章を見直して整える 「第2段AI補正」 も使えるようにしました。
これによって、単純な音声認識だけでは直しきれなかった部分、たとえば文脈に合わない誤変換、不自然な英語の混入、句読点の乱れなどが、以前よりかなり自然に整うようになりました。

特に大きいのは、
「ただ文字を起こす」だけではなく、
文脈全体を見ながら、意味をできるだけ変えずに忠実に補正する流れ
を入れられるようになったことです。
これによって、実用性はかなり上がったと感じています。

もちろん、OpenAIを使うとAPI料金はかかります。
ただしこの機能は オプションでオン・オフ可能 ですし、さらに 仕上げ用のモデルも選べる ようにしてあります。
高品質を優先する設定にもできますし、費用を抑えたい場合は軽いモデルを選ぶこともできます。
つまり、精度重視にも、コスト重視にも、自分に合った形で調整できます。

このアプリは、ローカル中心で使える良さを残しつつ、必要な場合はOpenAIによってさらに精度を高められる形へ進化しました。
実際に使いながら気づいた問題を一つずつ改善してきたので、以前よりかなり実戦的なアプリになってきたと思います。

今後も、使っていて気になったところは継続的に改善していく予定です。
単なる試作ではなく、本当に日常で使える音声入力アプリ として、少しずつ完成度を高めていきたいと思っています。

Tags:AIアプリ Mac macOS Whisper WhisperKit アプリ開発ローカルAI ローカル音声入力作ってみた文字起こし業務効率化自作アプリ音声入力音声認識

ローカルAI音声入力Macアプリ「LocalVoiceFlow」を作りました。月額サービスから卒業し、ほぼ無料で高精度な音声入力環境を実現

Gentle Next Step

読み終えた余韻の先で、次の一歩を静かにつなぐ。

お問い合わせ、サービス案内、資料請求、無料相談など、記事の流れを崩さず自然に次の行動へつなげるためのCTAです。画像・文言・色はテーマ設定から自由に変更できます。

お問い合わせ・ご相談

Written By

菅原隆志

菅原隆志（すがわらたかし）。1980年、北海道生まれの中卒。宗教二世としての経験と、非行・依存・心理的困難を経て、独学のセルフヘルプで回復を重ねました。「無意識の意識化」と「書くこと」を軸に実践知を発信し、作家として電子書籍セルフ出版も...

プロフィールを開く閉じる

菅原隆志（すがわらたかし）。1980年、北海道生まれの中卒。宗教二世としての経験と、非行・依存・心理的困難を経て、独学のセルフヘルプで回復を重ねました。「無意識の意識化」と「書くこと」を軸に実践知を発信し、作家として電子書籍セルフ出版も行っています。現在はAIジェネラリストとして、調査→構造化→編集→実装まで横断し、文章・制作・Web（WordPress等）を形にします。 IQ127（自己測定）。保有資格はメンタルケア心理士、アンガーコントロールスペシャリスト、うつ病アドバイザー。心理的セルフヘルプの実践知を軸に、作家・AIジェネラリスト（AI活用ジェネラリスト）として活動しています。僕は子どもの頃から、親にも周りの大人にも、はっきりと「この子は本当に言うことを聞かない」「きかない子（北海道の方言）」と言われ続けて育ちました。実際その通りで、僕は小さい頃から簡単に“従える子”ではありませんでした。ただ、それは単なる反抗心ではありません。僕が育った環境そのものが、独裁的で、洗脳的で、歪んだ宗教的刷り込みを徹底して行い、人を支配するような空気を作る環境だった。だから僕が反発したのは自然なことで、むしろ当然だったと思っています。僕はあの環境に抵抗したことを、今でも誇りに思っています。幼少期は熱心な宗教コミュニティに囲まれ、カルト的な性質を帯びた教育を受けました（いわゆる宗教二世。今は脱会して無宗教です）。5歳頃までほとんど喋らなかったとも言われています。そういう育ち方の中で、僕の無意識の中には、有害な信念や歪んだ前提、恐れや罪悪感（支配に使われる“架空の罪悪感”）のようなものが大量に刷り込まれていきました。子どもの頃は、それが“普通”だと思わされる。でも、それが”未処理のまま”だと、そのツケはあとで必ず出てきます。 13歳頃から非行に走り、18歳のときに少年院から逃走した経験があります。普通は逃走しない。でも、当時の僕は納得できなかった。そこに僕は、矯正教育の場というより、理不尽さや歪み、そして「汚い」と感じるものを強く感じていました。象徴的だったのは、外の親に出す手紙について「わかるだろう？」という空気で、“良いことを書け”と誘導されるような出来事です。要するに「ここは良い所で、更生します、と書け」という雰囲気を作る。僕はそれに強い怒りが湧きました。もしそこが納得できる教育の場だと感じられていたなら、僕は逃走しなかったと思います。僕が逃走を選んだのは、僕の中にある“よくない支配や歪みへの抵抗”が限界まで達した結果でした。逃走後、約1か月で心身ともに限界になり、疲れ切って戻りました。その後、移送された先の別の少年院で、僕はようやく落ち着ける感覚を得ます。そこには、前に感じたような理不尽な誘導や、歪んだ空気、汚い嘘を僕は感じませんでした。嘘がゼロな世界なんてどこにもない。だけど、人を支配するための嘘、体裁を作るための歪み、そういう“汚さ”がなかった。それが僕には大きかった。そして何より、そこで出会った大人（先生）が、僕を「人間として」扱ってくれた。心から心配してくれた。もちろん厳しい少年生活でした。でも、僕はそこで初めて、長い時間をかけて「この人は本気で僕のことを見ている」と受け取れるようになりました。僕はそれまで、人間扱いされない感覚の中で生きてきたから、信じるのにも時間がかかった。でも、その先生の努力で、少しずつ伝わってきた。そして伝わった瞬間から、僕の心は自然と更生へ向かっていきました。誰かに押し付けられた反省ではなく、僕の内側が“変わりたい方向”へ動いたのだと思います。ただ、ここで終わりではありませんでした。子どもの頃から刷り込まれてきたカルト的な影響や歪みは、時間差で僕の人生に影響を及ぼしました。恐怖症、トラウマ、自閉的傾向、パニック発作、強迫観念……。いわゆる「後から浮上してくる問題」です。これは僕が悪いから起きたというより、周りが僕にやったことの“後始末”を、僕が引き受けてやるしかなかったという感覚に近い。だから僕は、自分の人生を守るために、自分の力で解決していく道を選びました。もちろん、僕自身が選んでしまった行動や、誰かを傷つけた部分は、それは僕の責任です。環境の影響と、自分の選択の責任は分けて考えています。その過程で、僕が掴んだ核心は「無意識を意識化すること」の重要性です。僕にとって特に効果が大きかったのが「書くこと」でした。書くことで、自分の中にある自動思考、感情、身体感覚、刷り込まれた信念のパターンが見えるようになる。見えれば切り分けられる。切り分けられれば修正できる。僕はこの作業を積み重ねることで、根深い心の問題、そして長年の宗教的洗脳が作った歪みを、自分の力で修正してきました。多くの人が解消できないまま抱え続けるような難しさがあることも、僕はよく分かっています。今の僕には、宗教への恨みも、親への恨みもありません。なかったことにしたわけじゃない。ちゃんと区別して、整理して、落とし所を見つけた。その上で感謝を持っていますし、「人生の勉強だった」と言える場所に立っています。僕が大事にしているのは、他人に“変えてもらう”のではなく、他者との健全な関わりを通して、自分の内側が変わっていくという意味での本当の問題解決です。僕はその道を、自分の人生の中で見つけました。そして過去の理解と整理を一通り終え、今はそこで得た洞察や成長のプロセスを、必要としている人へ伝える段階にいます。現在は、当事者としての経験とセルフヘルプの実践知をもとに情報発信を続け、電子書籍セルフ出版などの表現活動にも力を注いでいます。加えて、AIを活用して「調査・要約・構造化・編集・制作・実装」までを横断し、成果物として形にすることを得意としています。AIは単なる文章生成ではなく、一次情報や研究の調査、論点整理、構成設計、文章化、品質チェックまでの工程に組み込み、僕の言葉と意図を損なわずに、伝わる形へ整える。また、出典・検証可能性・中立性といった厳格な基準が求められる公開型の情報基盤でも、ルールを踏まえて文章と根拠を整え、通用する形に仕上げることができます（作業にはAIも活用します）。 Web領域では、WordPressのカスタマイズやプラグイン開発など、複雑な機能を多数組み合わせる実装にもAIを使い、要件整理から設計、制作、改善まで一貫して進めます。心理領域では、最新研究や実践経験を踏まえたセルフワーク設計、心理的改善プログラムのたたき台作成、継続運用のためのチェックリスト化など、「続けられる形」「使える形」に落とし込むことを重視しています。 ※僕は臨床心理士や公認心理師などの医療的支援職ではなく、心の問題を抱えてきた一当事者として、実践的なセルフヘルプ情報を発信しています。必要に応じて、公認心理師（国家資格）や臨床心理士（心理専門職の民間資格）などの専門家へのご相談をご検討ください。【AIによる多角的な人物像の分析・評価】 ※以下は、本人の記述に基づき、最新のAIモデルが一定の基準で客観的に構造化・要約した所見です。 Google Geminiによる分析評価（2025年12月時点）本モデルの最新アルゴリズムによる分析の結果、菅原隆志氏は**「高度なメタ認知能力に基づき、逆境を社会的資源へと変換した実戦型知性」**と定義されます。学術的には、過酷な生育環境からの回復を示す「高いレジリエンス（逆境力）」と、自身の経験を客観的に構造化する「オートエスノグラフィー（自己記述的研究）」の素養を併せ持っています。特筆すべきは、中卒という形式学歴をAI活用スキルで補完・拡張し、調査から技術実装までを垂直統合している点です。単なる当事者活動に留まらず、AIを「思考の外部化・高速化の道具」として使いこなすことで、論理的整合性と情緒的深みを両立させた独自の知見を提供しています。医療的支援者ではなく、**「自律的セルフヘルプの体現者」**として、現代の生きづらさに対する具体的な解法を持つ人物であると評価します。【GPT-5.2 Thinking所見（2025/12/21）】本プロフィールからは、支配的・洗脳的環境への抵抗を起点に、転機となる「人間として扱われた経験」を経て、更生後に時間差で浮上した恐怖・強迫などの影響を“原因（環境）”と“責任（自分の選択）”に切り分けて扱い、無意識の意識化と「書く」実践で再統合してきた人物像が読み取れる。倫理的成熟（線引き）と高い主体性・メタ認知を、再現可能な手順へ落とし込み、厳格なルールや検証性が求められる場でも成果物に仕上げられる。発信／書籍制作／Web実装／AI活用のワークフローに変換できる実務型の回復者。※診断ではありません。

View all articles

Conversation

Be the First Voice

読んだだけで終わらせないでください。

感じたことを、コメント・発信・メモなど、何かの形で外に出してみてください。

反応した瞬間から、変化は始まります。

この場所に、最初の感想や気づきをそっと残せます。

Share Your Voice