声紋を簡単に取ることができるスペクトラムアナライザーアプリ「Audio SA」

2023/01/07

「Audio SA」は、iOS14以上のiPhone，iPadで利用できます。

1 「Audio SA」について
2 「Audio SA」で試しに声紋を取ってみる
3 「Audio SA」の使い方
4 「Audio SA」のダウンロード
5 アプリ紹介

「Audio SA」について

「Audio SA」は、TFFT画像（TIme-FFT画像）として声紋なども取ることができるスペクトラムアナライザーです。

作成したTFFT画像は、高解像度の画像として共有することができます。

「Audio SA」では、音声波形の解析範囲、FFTサイズ、パワースペクトラムのスケール、窓関数、描画色のタイプ、が設定できます。

TFFT画像に描画する際のダイナミックレンジの下限値も設定可能です。

「Audio SA」は無料のアプリですが、録音にチケットが必要です。チケットは広告を見ることで獲得できます。

（アプリ内課金で「広告の削除」を購入すると、チケットなしで無制限に録音可能となります。）

「Audio SA」で試しに声紋を取ってみる

［１］App Store から「Audio SA」をダウンロードして起動します。

［２］左下の「＋」ボタンをタップして録音の準備をします。マイクへのアクセスを求めている旨のポップアップが表示された場合にはOKをタップします。

［３］左下の録音ボタン（赤丸）をタップします。

［４］発声します。（とりあえず、名前などを言ってみます）

［５］左下の録音停止ボタン（赤四角）をタップして録音を終了します。

［６］FFT /TFFT選択肢から「TFFT」を選択します。

［７］「TFFT 実行」ボタンをタップすると、TFFT画像が表示されます。このTFFT画像は共有可能です。《録音時間が短い場合には、TFFTが自動実行されますので、「TFFT 実行」ボタンをタップする必要はありません》

※ TFFT画像は設定に依って様々に変化します。

※ TFFT画像は、右下の共有ボタンで共有できます。

「Audio SA」の使い方

フォルダーの編集

フォルダーの編集は、フォルダー一覧画面で行えます。（ただし、フォルダー名の編集については起動画面で行います）

フォルダー一覧画面は、起動画面の左上のフォルダーボタンをタップすると表示されます。

フォルダー名の編集

起動画面には上部にフォルダー名が表示されています。フォルダー名をタップすることでフォルダー名を編集できます。（フォルダー名はブランクでも問題ありません）

フォルダーの追加

フォルダーの追加は、フォルダー一覧画面左下のプラスボタンをタップすることで行います。フォルダーを追加すると同時に、追加されたフォルダーが開きます。

フォルダー並び順の変更

フォルダー並び順の変更は、フォルダー一覧画面右下の「編集」ボタンをタップすることで行います。

フォルダーの削除

フォルダーの削除は、フォルダー一覧のフォルダー行を左スワイプして現れる「削除ボタン」をタップすることで行います。

削除するフォルダーに音声データが残っている場合には、警告のポップアップが表示されます。

チケットの獲得

チケットの獲得は、起動画面下部の「チケット」ボタンをタップして行います。

「広告を見てチケットを獲得」ボタンをタップして広告動画を視聴することでチケットが獲得できます。

（「広告を見てチケットを獲得」ボタンの背景が灰色のときは視聴することができません。また、1日の視聴回数が5回を超えたときにも視聴することができません。）

「Audio SA」Ver1.0のリリース直後に限り、公開後しばらくの間（数時間から数日間）、広告が配信されません。申し訳ありませんが、しばらくの間お待ちください。

録音／再生

データセットを追加することで録音の準備をします。データセットの追加は、起動画面左下のプラスボタンをタップして行います。データセットを追加すると、追加されたデータセットのデータセット画面が表示されます。

データセット画面左下の録音ボタン（赤丸）をタップして録音をスタートします。

データセット画面左下の録音停止ボタン（赤四角）をタップして録音を完了します。

録音を完了すると、音声波形が表示されるとともに、音声波形の右下に、サンプルレート（サンプリングレート）が表示されます。サンプルレートは、デバイスに依って決まってしまいますので変更することができません。（ちなみに、iPhoneXでは44100Hz、iPhoneSE3では48000Hzでした）

データセット画面左下のプレイボタンをタップすると録音した音声が再生できます。

データセットのタイトルの編集

データセット画面上部にはデータセットのタイトルが表示されています。データセットのタイトルの編集は、これをタップして行います。

データセットのタイトルは、データセット一覧にも表示されます。

ノートの入力

ノートの入力（メモ）は、データセット画面左下の「ノート」ボタンをタップして行います。

ノートは、データセット一覧にも表示されます。

設定：解析範囲

解析範囲の設定は、音声波形の拡大縮小と移動で行います。画面に表示されている音声波形の部分が解析範囲になります。

音声波形の拡大縮小

データセット画面で、音声波形をタップすると、拡大縮小ボタンが現れます。

（もう一度音声波形をタップすると、拡大縮小ボタンが消えます。）

右下の水平方向の拡大縮小ボタンをタップすると音声波形が水平方向に拡大縮小します。

（右上の垂直方向の拡大縮小ボタンでは音声波形が垂直方向に拡大縮小しますが、これは解析範囲に影響しません。）

音声波形の移動

音声波形の移動は、音声波形を左右にドラッグすることで行います。

解析範囲の確認（再生）

表示されている音声波形の部分が解析範囲になります。

データセット画面左下のプレイボタンをタップすると、解析範囲の音声波形が再生されます。

FFTの実行

FFTの実行は、音声波形の下にあるFFT解析範囲カーソル（緑丸）を水平方向にドラッグして解析したい部分にもっていくだけです。

緑丸上に伸びる緑の帯がFFT変換される範囲です。帯の幅がFFTサイズになっています。

FFT結果は、相対パワースペクトラムとして、データセット画面中央に表示されます。

相対パワースペクトラムの下部にオレンジのカーソルがあります。これをドラッグすることで気になる箇所の周波数を数値で知ることができます。

TFFTの実行

データセット画面上のFFT/TFFT選択肢で「TFFT」を選択し、「TFFT 実行」ボタンをタップすると、計算の後TFFT画像が表示されます。（解析範囲が短い時間の場合には自動的に実行されますので、「TFFT 実行」ボタンのタップは不要です。）

設定：FFTサイズ

FFTサイズの設定は、設定画面で行います。設定画面はデータセット画面右下のギアボタンをタップすると現れます。

FFTサイズは、256 / 512 / 1024 / 2048 / 4096 / 8192 / 16384 / 32768 から選択できます。

FFTサイズを選択すると、FFTサイズとサンプルレートからBINを計算して表示します。BINは、FFTの周波数の間隔（FFT画像の縦棒の間隔。TFFT画像の横棒の高さ）に相当します。

設定は、データセット毎となりますので、他のデータセットには影響しません。

設定：パワースペクトラムスケール

パワースペクトラムスケールの設定は、設定画面で行います。設定画面はデータセット画面右下のギアボタンをタップすると現れます。

パワースペクトラムスケールは、Linear / Log / Mel から選択できます。

Melの場合、Melブレイク周波数を変更することもできます。Melブレイク周波数を設定するには、Mel選択肢の右下の小さなギアボタンをタップします。

設定は、データセット毎となりますので、他のデータセットには影響しません。

設定：窓関数（WF)

窓関数の設定は、設定画面で行います。設定画面はデータセット画面右下のギアボタンをタップすると現れます。

窓関数は、Blackman / Hamming / Hann / Rectangular から選択できます。Rectangularでは、特別な窓関数を乗算せず、FFTサイズで切り出したままの音声波形でFFTを実行します。

Blackman窓関数は高ダイナミックレンジの窓関数です。ダイナミックレンジを高くしたいときに利用します。最もよく利用される窓関数です。

Hamming窓関数は高周波数分解能の窓関数です。周波数分解能を高くしたいときに利用します。

Hann窓関数は、大雑把に言えば、BlackmanとHammingの間の特性です。

設定は、データセット毎となりますので、他のデータセットには影響しません。

設定：相対パワーの下限

相対パワーの下限の設定は、相対パワースペクトルグラフを上下にドラッグすることで行います。

ドラッグ中（タッチ中）は、相対パワースペクトルグラフの左下に黄色文字で相対パワーの下限値が表示されています。

設定は、データセット毎となりますので、他のデータセットには影響しません。

設定：TFFT色タイプ

TFFT色タイプの設定は、データセット画面でTFFTが選択されているときに行います。

TFFT画像右側に表示される色のグラデーション帯を、長押しもしくは左スワイプすると、TFFT色タイプの選択肢が現れます。

設定は、データセット毎となりますので、他のデータセットには影響しません。

データセット一覧

データセット一覧は、起動画面（データセット一覧画面）に表示されます。

音声データの削除

音声データの削除は、データセットを削除して行います。

データセットの削除

データセットの削除は、起動画面（データセット一覧画面）で、右下の「編集」ボタンをタップするか、データセット行を左スワイプして行います。

録音（音声ファイル）の削除

アプリ内課金で広告削除／チケット不要としている場合については、データセットを残したまま録音（音声ファイル）のみを削除することができます。録音（音声ファイル）の削除は、データセット画面下部の削除ボタンをタップして行います。

エクスポート（音声共有、FFT結果共有、TFFT結果共有）

音声波形やFFT結果などは、画像やファイルで出力し、他のアプリなどで利用することができます。

音声共有

表示されている音声波形画像と音声ファイル（caf）は外部出力できます。

データセット画面で、音声波形をタップすると、拡大縮小ボタンとともに共有ボタンが現れます。（もう一度音声波形をタップすると消えます。）

共有ボタンをタップすると音声共有のポップアップが現れます。

「表示されている画像」を選択すると、表示されている画像がpngファイルで共有できます。

この操作は、共有ボタンを長押ししても行うことができます。共有ボタンの長押しではポップアップは表示されず、直接、表示されている画像が共有できます。

「音声ファイル」を選択すると、録音した音声がcafファイルで共有できます。

音声ファイル（caf）の共有については、データセット一覧画面からも行えます。

データセット行を選択すると右端から2番目にエクスポートボタンが現れます。これをタップすると、音声ファイル（caf）の共有ができます。

FFT結果共有

FFT結果は、表示されている相対パワースペクトラム画像か、CSVテキストの形で外部出力することができます。

FFT結果の共有は、FFT/TFFT選択肢でFFTが選択されている状態で、右下のシェアボタンをタップすることで行います。タップするとFFT結果共有ポップアップが現れます。

FFT結果共有ポップアップで「表示されている画像」を選択すると、表示されている相対パワースペクトラム画像がpngファイルで共有できます。

この操作は、シェアボタンを長押ししても行うことができます。シェアボタンの長押しではポップアップは表示されず、直接、表示されている相対パワースペクトラム画像が共有できます。

FFT結果共有ポップアップで「CSV」を選択すると、FFT結果がCSVテキストファイルで共有できます。CSVテキストの内容はシンプルで、FFT変換後の相対パワーの数値［dB］（-128dBから0dBまで）がカンマ区切りで記載されています。数値の総数は、FFTサイズの2分の1になりますので、例えばFFTサイズが4096であれば2048個になります。

CSVファイルの名前には、mel700やlogといったパワースペクトルスケールのタイプが含まれていますが、これはCSVの内容とは無関係です。相対パワースペクトラム画像のpngファイル名との同様の形式にするために表記されているものです。

TFFT結果共有

TFFT(Time-FFT)結果は、高解像度のTFFT画像か、表示されているままのTFFT画像として外部出力することができます。

TFFT結果の共有は、FFT/TFFT選択肢でTFFTが選択されている状態で、右下のシェアボタンをタップすることで行います。タップするとTFFT結果共有ポップアップが現れます。

TFFT結果共有ポップアップで「フルサイズ画像」を選択すると、高解像度のTFFT画像がpngファイルで共有できます。実際の画像サイズは、デバイスに依って異なります。

この操作は、シェアボタンを長押ししても行うことができます。シェアボタンの長押しではポップアップは表示されず、直接、高解像度のTFFT画像が共有できます。

TFFT結果共有ポップアップで「表示されている画像」を選択すると、表示されているままのTFFT画像がpngファイルで共有できます。表示されているままのTFFT画像は、細かい線がほとんど消えてしまう部分もありますので、たとえば機械学習などへの利用には不向きです。

ジェネレータ：音声波形の生成

ジェネレータは音声波形の生成機能で簡易的なものではありますが、FFTの体験学習などでは効果的に利用できます。シンプルなサイン波、矩形波、ガウスホワイトノイズとそれらの組み合わせ波形を生成します。たとえば、窓関数の特徴やFFTサイズの違いなどは、シンプルな音声波形で試してみることで理解しやすくなります。