Androidアプリで音声録音を実装する - Androidアプリ開発の覚書き

音声録音の方法を聞いてみました。

ストリーミングと聞いて、リアルタイム音声通信などはできるかと思い、後半で聞いてみましたが、そちらはAndroid標準の機能だけで実装するのは難しそうです。

アプリ内から、音声の録音、録音したファイルの保存を行う方法を教えてください。
挙げてくださったコードの内部的振る舞いについて、教えてください。
3gpとは何ですか？　mp3でも録音できますか？
AudioEncoderとは何ですか？
サンプルコードでは、エンコーダーで保存したデータを、3gpに変換しているのですか？
ありがとうございます。MP4フォーマットで保存する場合も同様ですか？
ところで、ストリーミングとは何ですか？
例えば、3gpで録音しているファイルを、Bluetoothなどを介して直接、他のデバイスのアプリに送信するといったことは出来るのですか？
ありがとうございます。音声通話などのアプリでは、このようにしてファイルの共有がされているのですか？
音声通話アプリで用いられている技術は、Androidで標準で提供されているAPIで実現できますか？
難しそうですね。また使用したくなったらお聞きします。ありがとうございました。

アプリ内から、音声の録音、録音したファイルの保存を行う方法を教えてください。

User
AndroidアプリをJetpack Composeで開発しています。

アプリ内から、音声の録音、録音したファイルの保存を行う方法を教えてください。

ChatGPT
Jetpack ComposeでAndroidアプリ内で音声を録音し、録音したファイルを保存する方法は以下の手順で行います。

必要なパーミッションの追加
まず、AndroidManifest.xmlに録音機能とストレージへの書き込み機能に必要なパーミッションを追加します。

<uses-permission android:name="android.permission.RECORD_AUDIO" />  
<uses-permission android:name="android.permission.WRITE_EXTERNAL_STORAGE" />

Android 6.0（APIレベル 23）以降では、実行時にユーザーからこれらのパーミッションを明示的に許可を得る必要があります。

実行時パーミッションのリクエスト
Jetpack Composeでは、rememberLauncherForActivityResult APIを使用して実行時パーミッションをリクエストできます。以下はその例です。

val context = LocalContext.current  
val audioPermissionStatus = rememberPermissionState(android.Manifest.permission.RECORD_AUDIO)  
  
LaunchedEffect(true) {  
  audioPermissionStatus.launchPermissionRequest()  
}  
  
if (audioPermissionStatus.status.isGranted) {  
  // 録音機能を実装  
} else {  
  // パーミッションが拒否された時の処理  
}

録音とファイルの保存
録音はMediaRecorderクラスを使用して行います。以下は録音とファイル保存の基本的な例です。

import android.media.MediaRecorder  
import java.io.File  
  
class AudioRecorder(private val context: Context) {  
  private var mediaRecorder: MediaRecorder? = null  
  private var audioFile: File? = null  
  
  fun startRecording() {  
    audioFile = File(context.getExternalFilesDir(null), "test_audio.3gp")  
      
    mediaRecorder = MediaRecorder().apply {  
      setAudioSource(MediaRecorder.AudioSource.MIC)  
      setOutputFormat(MediaRecorder.OutputFormat.THREE_GPP)  
      setAudioEncoder(MediaRecorder.AudioEncoder.AMR_NB)  
      setOutputFile(audioFile?.absolutePath)  
      prepare()  
      start()  
    }  
  }  
  
  fun stopRecording() {  
    mediaRecorder?.apply {  
      stop()  
      release()  
    }  
    mediaRecorder = null  
  }  
}

このクラスを使って録音を開始・停止することができます。ただし、実際にアプリに組み込む際にはユーザーインターフェースでの操作や、録音ファイルの管理など、より詳細な実装が必要になります。

注意点
Android 10 (APIレベル 29) 以降、外部ストレージへの直接アクセスは制限されています。アプリ専用のディレクトリへの保存や、MediaStoreを使用したメディアファイルの管理を検討してください。
実行時パーミッションのリクエストやMediaRecorderの使用方法は、Androidのバージョンによって異なる場合がありますので、公式ドキュメントを参照して、最新の実装方法を確認してください。

挙げてくださったコードの内部的振る舞いについて、教えてください。

User
挙げてくださったコードの内部的振る舞いについて、教えてください。

ChatGPT
挙げたコードの内部的な振る舞いについて詳しく説明します。

実行時パーミッションのリクエスト

val context = LocalContext.current  
val audioPermissionStatus = rememberPermissionState(android.Manifest.permission.RECORD_AUDIO)  
  
LaunchedEffect(true) {  
  audioPermissionStatus.launchPermissionRequest()  
}  
  
if (audioPermissionStatus.status.isGranted) {  
  // 録音機能を実装  
} else {  
  // パーミッションが拒否された時の処理  
}

この部分では、実行時にユーザーから録音機能(RECORD_AUDIO)のパーミッションをリクエストしています。rememberPermissionStateはJetpack Composeでのパーミッションの状態を記憶するためのAPIです。launchPermissionRequestを呼び出すことで、ユーザーにパーミッションの許可を求めるダイアログが表示されます。ユーザーがパーミッションを許可した場合、isGrantedがtrueになり、録音機能の実装部分が実行されます。拒否した場合は、パーミッションが拒否された時の処理が実行されます。

録音とファイルの保存

import android.media.MediaRecorder  
import java.io.File  
  
class AudioRecorder(private val context: Context) {  
  private var mediaRecorder: MediaRecorder? = null  
  private var audioFile: File? = null  
  
  fun startRecording() {  
    audioFile = File(context.getExternalFilesDir(null), "test_audio.3gp")  
      
    mediaRecorder = MediaRecorder().apply {  
      setAudioSource(MediaRecorder.AudioSource.MIC)  
      setOutputFormat(MediaRecorder.OutputFormat.THREE_GPP)  
      setAudioEncoder(MediaRecorder.AudioEncoder.AMR_NB)  
      setOutputFile(audioFile?.absolutePath)  
      prepare()  
      start()  
    }  
  }  
  
  fun stopRecording() {  
    mediaRecorder?.apply {  
      stop()  
      release()  
    }  
    mediaRecorder = null  
  }  
}

このコードではMediaRecorderクラスを使用して録音を行っています。具体的な振る舞いは以下の通りです。

startRecordingメソッドが呼ばれると、まず録音ファイルを保存するFileオブジェクトを生成しています。この例ではアプリのプライベートストレージ領域にtest_audio.3gpという名前のファイルを作成しています。

次に、MediaRecorderオブジェクトを初期化しています。setAudioSourceで音声のソースとしてマイクを指定し、setOutputFormatとsetAudioEncoderで録音ファイルのフォーマットとエンコーダを指定しています。この例では、フォーマットには3GPP、エンコーダにはAMR Narrowbandを使用しています。

setOutputFileメソッドで録音データの出力先としてファイルのパスを指定しています。

prepareメソッドで録音を開始する準備をし、startメソッドで実際に録音を開始しています。

stopRecordingメソッドでは、MediaRecorderのstopメソッドで録音を停止し、releaseメソッドでリソースを解放しています。その後、mediaRecorderオブジェクトをnullに設定しています。

このクラスを使用することで、録音の開始と停止を簡単に制御できます。ただし、実際にはユーザーによる操作に応じてこれらのメソッドを呼び出す必要があります。

3gpとは何ですか？　mp3でも録音できますか？

User
3gpとは何ですか？　mp3でも録音できますか？

ChatGPT
3GPについて
3GPは、主に携帯電話で使用されるために設計されたマルチメディアコンテナフォーマットです。3GPP (Third Generation Partnership Project) によって開発され、主に携帯電話の間での音声やビデオファイルの交換に適しています。ファイルサイズが小さく、ストリーミングに最適化されているため、帯域幅が限られている環境での使用に適しています。しかし、音質やビデオの品質は、より大きなファイルサイズを持つ他のフォーマットに比べて劣る可能性があります。

MP3での録音
はい、AndroidでMP3フォーマットでの録音も可能ですが、MediaRecorderクラスを使用して直接MP3フォーマットで録音する機能は提供されていません。MediaRecorderは主にAMR、3GP、MP4などのフォーマットに対応しています。MP3で録音するには、追加のライブラリを使用するか、録音された音声ファイルを別のフォーマットで保存した後に、サードパーティのライブラリを使用してMP3に変換する必要があります。

一般的な方法としては、MediaRecorderでサポートされているフォーマットで録音し、その後に例えばLAMEエンコーダーを使ってMP3に変換する手法があります。LAMEはオープンソースのMP3エンコーダーで、高品質なMP3ファイルの生成が可能です。ただし、このような変換プロセスには追加の処理時間が必要になり、アプリケーションによっては実装が複雑になる可能性があります。

MP3で直接録音を行いたい場合は、サードパーティのライブラリやフレームワークを検討するのが良いでしょう。市場には様々なオーディオ処理ライブラリがあり、多くの場合、より柔軟なオーディオフォーマットのサポートや高度な機能を提供します。

AudioEncoderとは何ですか？

User
AudioEncoderとは何ですか？

ChatGPT
AudioEncoderは、AndroidのMediaRecorderクラスで使用されるコンポーネントの一つで、音声データをデジタルフォーマットにエンコード（符号化）するためのエンコーダーを指します。このエンコーダーは、録音された生の音声データを圧縮し、特定のオーディオフォーマット（例えばAMR、AACなど）で保存するために使用されます。エンコードプロセスは、ファイルサイズを削減し、音声ファイルの共有や保存を容易にするために重要です。

MediaRecorderクラスで設定できるAudioEncoderの値には、以下のようなものがあります：

DEFAULT：デフォルトのオーディオエンコーダーを使用します。

AMR_NB：AMR（Adaptive Multi-Rate）ナローバンドオーディオコーデックを使用します。低ビットレートでの録音に適しており、主に音声メモや通話記録に使用されます。

AMR_WB：AMRワイドバンドオーディオコーデックを使用します。ナローバンドよりも広い帯域幅をカバーし、より高い音質を提供します。

AAC：高度オーディオコーディングを使用します。広範な互換性と中から高いビットレートでの良好な音質で知られています。

HE_AAC：高効率高度オーディオコーディングを使用します。AACに比べて更に効率的な圧縮を実現しますが、互換性の問題が生じる場合があります。

AAC_ELD：強化型低遅延高度オーディオコーディングを使用します。ストリーミングやリアルタイム通信に適しています。

これらのエンコーダーを選択することで、アプリケーションのニーズに応じた音声ファイルの品質とサイズのバランスを取ることができます。例えば、音声メモアプリではファイルサイズを小さく保つためにAMR_NBを使用するのが一般的ですが、音楽アプリではより高い音質が求められるためAACやHE_AACが選ばれることがあります。

サンプルコードでは、エンコーダーで保存したデータを、3gpに変換しているのですか？

User
サンプルコードでは、エンコーダーで保存したデータを、3gpに変換しているのですか？

ChatGPT
サンプルコードでは、エンコーダーを使用して直接3GPフォーマットのファイルに音声データを保存しています。このプロセスにおいて、エンコーダーは音声データを特定のフォーマットで圧縮し、その結果を3GPファイルとして出力しています。変換というよりは、エンコードと保存のプロセスが同時に行われます。

サンプルコードを再度確認すると、MediaRecorderのsetOutputFormatメソッドで出力フォーマットとしてMediaRecorder.OutputFormat.THREE_GPPを指定しています。これにより、出力ファイルは3GPフォーマットになります。また、setAudioEncoderメソッドでMediaRecorder.AudioEncoder.AMR_NBを指定しています。これは音声データをAMRナローバンドフォーマットでエンコードし、その結果を3GPコンテナに格納することを意味します。

mediaRecorder.apply {  
  setAudioSource(MediaRecorder.AudioSource.MIC)  
  setOutputFormat(MediaRecorder.OutputFormat.THREE_GPP)  
  setAudioEncoder(MediaRecorder.AudioEncoder.AMR_NB)  
  setOutputFile(audioFile?.absolutePath)  
  prepare()  
  start()  
}

ここでの重要なポイントは、3GPフォーマット（.3gpファイル）が、エンコードされた音声データを格納するコンテナとして機能しているということです。エンコーダーで圧縮された音声データは、3GPファイル形式の中で管理されます。したがって、このプロセスはエンコードされたデータを「3GPに変換している」のではなく、エンコードされたデータを3GPフォーマットで直接保存しているという表現が正確です。

ありがとうございます。MP4フォーマットで保存する場合も同様ですか？

User
ありがとうございます。MP4フォーマットで保存する場合も同様ですか？

ChatGPT
はい、MP4フォーマットで保存する場合も基本的には同様のプロセスになります。MediaRecorderを使用して音声（または動画）データをエンコードし、その結果をMP4フォーマットのファイルに直接保存します。

MP4ファイルに保存する場合、setOutputFormatメソッドでMediaRecorder.OutputFormat.MPEG_4を指定します。また、エンコーダーとしては、例えばMediaRecorder.AudioEncoder.AACを選択することが多いです。AACエンコーダーはMP4ファイル形式との互換性が高く、良好な音質を保ちつつファイルサイズを抑えることができます。

以下は、MP4フォーマットで音声を録音して保存する基本的な例です：

mediaRecorder.apply {  
  setAudioSource(MediaRecorder.AudioSource.MIC)  
  setOutputFormat(MediaRecorder.OutputFormat.MPEG_4) // 出力フォーマットをMP4に設定  
  setAudioEncoder(MediaRecorder.AudioEncoder.AAC)  // AACエンコーダーを使用  
  setOutputFile(audioFile?.absolutePath)  
  prepare()  
  start()  
}

このコードでは、MediaRecorderが音声データをAAC形式でエンコードし、そのデータをMP4ファイルとして保存します。ここでも、エンコーダーは音声データを圧縮し、その圧縮されたデータがMP4というコンテナフォーマット内に格納されます。

MP4は非常に一般的なマルチメディアフォーマットであり、音声だけでなくビデオデータも格納することができます。このため、特に動画アプリや高品質な音声を扱うアプリで好まれています。MP4フォーマットは広い互換性を持っているため、多くのデバイスやプレイヤーで再生することが可能です。

ところで、ストリーミングとは何ですか？

User
ありがとうございます。すっきり理解できました。

ところで、ストリーミングとは何ですか？

ChatGPT
ストリーミングとは、インターネットや他のネットワークを通じて、音声や動画などのメディアコンテンツをリアルタイムで配信し、ユーザーがダウンロードを完了する前に再生を開始できる技術やプロセスを指します。ストリーミングにより、ユーザーはファイルが完全にダウンロードされるのを待たずに、コンテンツを視聴または聴取することができます。

ストリーミングの特徴
リアルタイム配信: コンテンツはサーバーから直接ストリームされ、ユーザーはダウンロードが完了する前にコンテンツを楽しむことができます。

バッファリング: ストリーミングプロセスにおいて、少量のデータがユーザーのデバイスに一時的に保存されます。これにより、インターネット接続の速度が一時的に遅くなっても、コンテンツの再生を滑らかに続けることができます。

適応ストリーミング: ユーザーのインターネット速度に応じて、ビデオの品質が自動的に調整される技術です。これにより、低速な接続でも中断なくコンテンツを視聴できます。

ストリーミングの利点
即時アクセス: ユーザーはコンテンツを即座に再生でき、ダウンロードに要する時間を節約できます。
ディスクスペースの節約: ユーザーのデバイスにコンテンツが保存されないため、ディスクスペースを節約できます。

アクセスの容易さ: ストリーミングサービスは、さまざまなデバイス（スマートフォン、タブレット、パソコン、スマートTVなど）で利用でき、ユーザーはどこにいてもコンテンツにアクセスできます。

ストリーミングの欠点
インターネット依存: ストリーミングは常時インターネット接続を必要とします。接続が不安定だと、再生に中断や品質の低下が生じる可能性があります。

データ使用量: 高品質のストリーミングは大量のデータを消費するため、データ制限のあるインターネットプランでは追加料金が発生することがあります。

ストリーミング技術は、音楽、映画、テレビ番組、ライブイベントなど、さまざまなメディアコンテンツの配信に広く利用されています。Netflix、YouTube、Spotifyなどのサービスは、この技術を活用しています。

例えば、3gpで録音しているファイルを、Bluetoothなどを介して直接、他のデバイスのアプリに送信するといったことは出来るのですか？

User
例えば、3gpで録音しているファイルを、Bluetoothなどを介して直接、他のデバイスのアプリに送信するといったことは出来るのですか？

ChatGPT
はい、Androidデバイスで3GPなどのファイルを録音した後、Bluetoothを介してそのファイルを他のデバイスに直接送信することは可能です。このプロセスは主に以下のステップで構成されます：

録音ファイルの準備: まず、アプリケーションで録音を行い、ファイルをデバイスのストレージに保存します。この例では、3GPフォーマットのファイルを使用します。

Bluetoothの有効化: ユーザーのデバイスでBluetoothが有効になっていることを確認します。Bluetoothが無効になっている場合は、ユーザーに有効化を求める必要があります。

ペアリングと接続: 送信先のデバイスとペアリングを行い、Bluetooth接続を確立します。Androidでは、このプロセスを簡単に行うためのUIとAPIが提供されています。

ファイルの送信: Bluetooth接続を使用して、録音した3GPファイルを他のデバイスに送信します。Androidでは、Intentを使ってファイル送信のアクションを簡単に起動できます。例えば、以下のコードスニペットはファイルを共有するための一般的な方法を示しています：

val fileUri: Uri = // 送信するファイルのUri  
  
val intent = Intent().apply {  
  action = Intent.ACTION_SEND  
  putExtra(Intent.EXTRA_STREAM, fileUri)  
  type = "audio/3gpp" // MIMEタイプを設定  
}  
  
// Bluetoothを使用してファイルを共有するためのアプリケーションをユーザーに選択させる  
val chooser = Intent.createChooser(intent, "ファイルを共有")  
startActivity(chooser)

このコードは、ユーザーにファイルを共有するためのアプリ選択ダイアログを表示します。ユーザーはBluetoothを選択し、ペアリングされたデバイスのリストから送信先を選ぶことができます。

注意点
パーミッション: Bluetoothを使用するには、適切なパーミッションがアプリケーションに与えられている必要があります。また、Android 6.0（APIレベル 23）以降、実行時に位置情報のパーミッションをリクエストする必要があります。

デバイス間の互換性: 送信先のデバイスがファイル形式をサポートしている必要があります。ほとんどのモダンなスマートフォンやタブレットは一般的なオーディオフォーマットをサポートしていますが、事前に確認することが重要です。

このようにして、Bluetoothを介したファイルの送信は、Androidデバイス間でのデータ共有に非常に便利な方法です。

ありがとうございます。音声通話などのアプリでは、このようにしてファイルの共有がされているのですか？

User
ありがとうございます。音声通話などのアプリでは、このようにしてファイルの共有がされているのですか？

ChatGPT
音声通話アプリの場合、ファイル共有とは異なるアプローチが一般的に取られます。音声通話アプリでは、リアルタイムの音声ストリーミング技術が主に使用されています。このプロセスでは、音声データは小さなパケットに分割され、インターネットを介して送受信されます。これにより、通話参加者間でリアルタイムの音声通信が可能になります。

音声通話アプリの基本的なプロセス
音声のキャプチャ: ユーザーの声はマイクロフォンを介してデジタル音声データに変換されます。

エンコードと圧縮: キャプチャされた音声データは、帯域幅を節約するためにエンコードされ、圧縮されます。このプロセスは、音声の品質を維持しつつ、データサイズを小さくすることを目的としています。

パケット化: 圧縮された音声データは、インターネット経由で送信するために小さなパケットに分割されます。

送信: これらのパケットは、インターネットプロトコルを使用して通話の相手方にリアルタイムで送信されます。

受信とデコード: 受信した音声パケットは、到着した順に再構築され、デコードされて元の音声信号に戻されます。
再生: 最終的に、デコードされた音声はスピーカーを介して聞こえるようになります。

このプロセスは、遅延を最小限に抑えることが重要であり、音声のリアルタイム性を確保するために様々な技術が利用されます。例えば、UDP（User Datagram Protocol）は、リアルタイム通信において遅延を減らすためによく使用されるプロトコルです。

ファイル共有との違い
ファイル共有では、ファイル全体が一度に相手方に送信され、受信者はファイルのダウンロードが完了するまで内容を利用できません。これに対して、音声通話アプリでは音声データがリアルタイムでストリーミングされ、通話の両端でほぼ同時に音声が送受信されます。

音声通話アプリやビデオ通話アプリでは、リアルタイム性を確保するために、より複雑なネットワーク管理、データ圧縮、エラー訂正などの技術が必要とされます。これらのアプリケーションは、高品質で途切れのない通信を提供するために、継続的なデータの最適化とネットワークの監視を行います。

音声通話アプリで用いられている技術は、Androidで標準で提供されているAPIで実現できますか？

User
音声通話アプリで用いられている技術は、Androidで標準で提供されているAPIで実現できますか？

ChatGPT
Androidプラットフォームは、音声通話アプリを開発するためのいくつかの基本的なAPIを提供していますが、リアルタイム音声通信（VoIPや音声チャットなど）を実現するためには、追加の技術やライブラリが必要になる場合が多いです。

Androidが提供する基本的なAPI
AudioRecordとAudioTrack: これらのクラスは、それぞれマイクロフォンからの音声データのキャプチャと、スピーカーへの音声データの再生を行うためのAPIです。これらを使用して、音声データの基本的な処理を行うことができます。

MediaRecorderとMediaPlayer: これらのAPIは、ファイルへの録音および録音されたファイルの再生をサポートしています。リアルタイム通信では直接使用されないことが多いですが、録音機能をアプリに組み込む場合には便利です。

リアルタイム音声通信に必要な追加の技術
リアルタイムの音声通話機能を提供するためには、以下のような追加の技術やライブラリが一般的に必要になります。

WebRTC: WebRTC（Web Real-Time Communication）は、オープンソースのプロジェクトで、ブラウザやモバイルアプリケーションにリアルタイム通信機能を簡単に統合することを目的としています。音声通話、ビデオ通話、データ共有などをサポートしており、Androidアプリで広く使用されています。低遅延で高品質な通信を実現するための機能を多数備えています。

SIP（Session Initiation Protocol）: SIPは、VoIP（Voice over IP）通話を始めとするリアルタイム通信セッションの開始、管理、終了を行うためのプロトコルです。Android SDKにはSIPに関するAPIが含まれていますが、全てのデバイスやOSバージョンで利用できるわけではありません。

実装の考慮事項
ネットワークの最適化: リアルタイム音声通話を実現するには、ネットワークの遅延やパケットロスを最小限に抑える必要があります。これには、適切なネットワークプロトコルの選択や、QoS（Quality of Service）の管理が重要です。

セキュリティ: 通話データの暗号化や、認証メカニズムの実装を通じて、通信のセキュリティを確保する必要があります。

Androidでリアルタイム音声通話アプリを開発する場合、これらの追加の技術やライブラリを組み合わせることで、高品質な通話機能を実現することができます。WebRTCなどのライブラリは、多くの場合、必要な機能をすでに実装しており、開発者が直面する一般的な課題を解決するためのソリューションを提供しています。