PPT 발표 관련

8장 Voice-To-Instrument 기능에서 발표 자료에는 librosa, pretty midi 같은 라이브러리 그림은 뺐는데, 발표할때 언급하면 좋을 듯

Voice To Instrument 기능에서는 파이썬 음성 처리 라이브러리인 librosa를 이용한 전처리를 진행해서 입력 음성 데이터의 음질을 높입니다.

이후 librosa를 이용한 pitch detection 알고리즘을 적용하여 시간대별로 주파수를 따내고, 해당 주파수에 해당하는 MIDI 노트번호와 매칭하여 MIDI 파일을 생성합니다.

MIDI 파일로부터 오디오 파일을 생성해내기 위해서는 악기별 soundfont 파일과 pyFluidSynth 라이브러리를 사용해서 MIDI 파일로부터 오디오 파일을 생성합니다.

Stacking Beats 기능에서는 병합하고자 하는 비트에 해당하는 MIDI 파일들을 불러오고, 해당 MIDI 파일들로 부터 생성한 오디오 파형을 병합하여 최종적으로 하나의 오디오 파일을 생성합니다.

유사 서비스로는 Google Magenta의 Onsets and Frames 프로젝트가 있습니다. 이 프로젝트는 audio to MIDI 변환으로 10Seconds와 유사한 목표를 가지고 있지만, 해당 프로젝트에서는 오직 피아노 소리로부터 MIDI 파일을 생성하는 학습을 진행하기 때문에 사람의 음성에 대해서는 올바른 MIDI 파일을 잘 만들어내지 못하는 모습을 보였습니다.

다만 10 Seconds는 ~~

실시간 데모 관련

저희 어플의 첫 화면은 녹음 화면입니다. 누구나 사용하기 쉽게 직관적으로 제공하기 위해 첫 화면을 녹음 화면으로 설정했습니다. 해당 화면에서 10초 동안 녹음을 진행하면 해당 음성에 대해 악기소리로 변환된 소리를 들을 수 있습니다.

다만, 현재 진행상황으로는 음성처리 서버와 연결을 아직 하지 않았기 때문에 사전에 녹음한 음성과 실제로 음성처리를 구현해서 생성한 비트를 사용해서 데모를 진행하도록 하겠습니다.

먼저 사전에 녹음한 10초짜리 음성에 대해 들려드리겠습니다. (재생)