afplayなら音声認識を邪魔しませんでした。
残る問題は音声の切り出しです。
一般的にというか、手持ちのマシンでは、連続して流れる音声をリアルタイムでディクテーションすると、処理が追いつかなくなります。
# それでも十数秒の長さの文を数秒の遅れで解析してくれますが
切り出し自体はJuliusにもツールが付属しているので、何も難しくありません。
どうせ音声認識の研究をしているわけでも論文を書くわけでもないのです。
既知の技術と既存のテクニックを組み合わせることが実装なわけですから。
小さな千代紙を1枚ずつ貼り付けて、張子の虎に仕上げるだけのことです。
しかしこれで、Julius、Mac、ドラゴンスピーチのバッチ認識、長文使ってまとめて比較評価できそうですね。
# ドラゴンスピーチ買ってないけど
最後にMacの音声認識の残念な仕様として、
アプリのフォーカスと共に、
音声認識結果の出力先が変わる
と言う点があります。これではアプリで音声認識開始しても、他のアプリがポップアップしたりするとぐちゃります。IMEの入力途中文字列みたいな感じです。
例えば、メモ帳を開いて、Fn,Fnで音声認識を開始して待機状態にして、コンソールでafplayを実行すると、コンソールに認識結果が出ます。
余談ですが、このまましばらく放置すると、コンソールがクラッシュします。(笑
最近、OSXのアップデートの度に、これが直るか観察していますが、直す気はないようですね。
入力バッファの処理が甘いのか、IMEのように入力を横取りする仕組みの作りが悪いのか。両方ですかね。
コメント