音声テキスト化の精度をUP
名刺サイズのAI搭載ボイスレコーダー

ソースネクスト「AutoMemo S」

AIを搭載した「AutoMemo」は、録音した音声をテキストに変換できるボイスレコーダーだ。従来、会議などの音声録音にとどまっていたボイスレコーダーの性能を、AIによって飛躍させたAutoMemoは、どのように活躍の幅を広げていくのか。初代AutoMemoの登場から1年が経過して、音声認識・テキスト化性能を向上させた最新モデルの「AutoMemo S」。その可能性を見据えつつ製品をレビューした。
text by 森村恵一

テキスト化の精度は90%以上

上記は実際に音声をテキスト化してみた結果だ。「エス」と発音した音をエフと認識した以外は正確にテキスト化できた。

 AutoMemo Sは、重量はわずか88gで名刺サイズのコンパクトな筐体設計のAIボイスレコーダーだ。使い方はとてもシンプルで、本体の前面にある丸い録音ボタンをタッチすると録音が始まる。録音時、本体がWi-Fiに接続されていれば、録音終了後すぐに音声がテキスト化される。外出先や会議室など、録音環境でWi-Fiが使えない場合には、インターネットに接続された後に音声データのテキスト化が実行される。テキスト化されたファイルと録音データは、事前にクラウドストレージと連携しておくことで転送が可能だ。登録したメールアドレスにも、テキスト化された録音内容と音声ファイルのダウンロードリンクを送信できる。クラウドとの連携方法は、GoogleアカウントやApple IDをAutoMemo Sに登録し、本体の「共有」というメニューから、利用するクラウドストレージを設定する。対応しているクラウドサービスは、Googleドライブ、Dropbox、OneDriveだ。登録が完了すると、クラウドストレージに「automemo」というフォルダーが自動で作成され、その中に年月日ごとにフォルダーが割り振られて、MP3ファイルとテキストファイルが保存される。

 ソースネクストの情報によれば、AutoMemo Sのテキスト化の精度は90%※に達するという。90%というのは、同社の持っている従来のAI解析エンジンの75%と比較すると、大幅に向上している。試しに、テレビでの会話や自分の思いついた言葉を認識させてみたが、ほぼ間違いなくテキストに変換された。複数の人間が同時に会話をしてしまったり、音声の発音が曖昧だったり、同音異義語が多かったりすると正しく判断されないケースもあるので、音声が遮断されないような場所に置くなど注意が必要だ。

 そのほかにもAutoMemo Sには便利な機能が備わっている。例えば、スマートフォンのような文字の入力機能が備わっており、日本語でのタイトルの編集が自由に行える。再生速度も0.5~2.0倍の6段階で調整できるので、再生時間の短縮になったり、聞きにくい部分の聞き直しに使えたりするなどいろいろと活用できる。対応する言語は、日本語のほかに英語や中国語など72言語のテキスト化をサポートしている。ただし、音声データの翻訳機能は備わっていないので、一度の録音でテキスト化できるのは1言語のみとなる。

※ソースネクスト調べ(2021年11月18日)
約40dbの会議室で話者と端末との距離が80~100cmになるように設定し、4名の会話を録音してテキスト化。これを5回試行したときの正解率の平均値を従来の解析エンジンと比較。文字起こしの精度は話し方や環境によって大きく変化する。

AIボイスレコーダーでDX推進

本体上部には人の声をクリアに集音できるように調整されたマイクを搭載している。

 全国的に推進されているデジタルトランスフォーメーション(DX)の中には、手作業によるアナログな労力を削減する取り組みがある。今回のAutoMemo Sによる音声のテキスト化は、そうしたDXに貢献できる1台になる。インタビューから会議の議事録など、これまで人手による録音音源の確認をはじめ編集に至るまでに求められていた作業の多くが、このAutoMemo Sによってデジタル化されていく。テキスト化された音声データは、検索性が増して整理の効率化も向上する。例えば、業務時間を割かれてきた議事録作成の大幅な時短につながる。AutoMemo Sは、本体のマイクからだけではなく、オーディオケーブルでPCから出力された音声も録音できるので、オンライン会議にも活用できる。オンライン会議が増えて、議事録の整理に困っている人にとっては、かなり便利なガジェットとなる。

 AutoMemo Sは、購入時点でテキスト化が1時間まで無料で行えるベーシックプランが付いているが、継続的な利用を前提とすると、30時間まで音声をテキスト化できる有償のプレミアムプラン(税込:980円/月)の契約を推奨したい。仮に、1日の会議が1~2時間ほどあるとすれば、1カ月で30時間は消費してしまうことが想定される。より多くの録音データをテキスト化したいユーザーのために、1回1,480円でテキスト化できる時間を10時間延長できるサービスとして「10時間チャージ」も用意されているので、利用用途や頻度を踏まえて検討してみてほしい。

 AutoMemo Sを含めた同社のAIテキスト化サービスは、今後もさらなる進化が期待できる。精度の向上によって話者の判別などが可能になれば、テキスト化されたデータの付加価値はさらに高まる。そうした可能性やビジネスの有用性を先取りするためにも、AutoMemo Sをこれからのボイスレコーダーとして使ってみることをお薦めしたい。