Improving Fidelity of Synthesized Voices Generated by Using GANs
1. 서 론 2. 관련 연구 3. 시간-주파수 표현 및 HPSS 4. 실험 및 성능평가 5. 결론 및 향후 연구 References
생성적 적대 신경망(Generative Adversarial Networks, GANs)은 컴퓨터 비전 분야와 관련 분야에서 큰 인기를 얻었으나, 아직까지는 오디오 신호를 직접적으로 생성하는 GAN이 제시되지 못했다. 오디오 신호는 이미지와 다르게 이산 값으로 구성된 생플링된 신호이므로, 이미지 생성에 널리 사용되는 CNN 구조로 학습하기 어렵다. 이러한 제약을 해결하고자, 최근 GAN 연구자들은 오디오 신호의 시간-주파수 표현을 기존 이미지 생성 GAN에 적용하는 전략을 제안했다. 본 논문은 이 전략을 따르면서 GAN을 사용해 생성된 오디오 신호의 충실도를 높이기 위한 개선된 방법을 제안한다. 본 방법은 공개된 스피치 데이터세트를 사용해 검증했으며, 프레쳇 인셉션 거리(Frechet Inception Distance, FID)를 사용해 평가했다. 기존의 최신(state-of-the-art) 방법은 11.973의 FID를, 본 연구에서 제안하는 방법은 10.504의 FID를 보였다(FID가 낮을수록 충실도는 높다).
Although Generative Adversarial Networks (GANs) have gained great popularity in computer vision and related fields, generating audio signals independently has yet to be presented. Unlike images, an audio signal is a sampled signal consisting of discrete samples, so it is not easy to learn the signals using CNN architectures, which is widely used in image generation tasks. In order to overcome this difficulty, GAN researchers proposed a strategy of applying time-frequency representations of audio to existing image-generating GANs. Following this strategy, we propose an improved method for increasing the fidelity of synthesized audio signals generated by using GANs. Our method is demonstrated on a public speech dataset, and evaluated by Frechet Inception Distance (FID). When employing our method, the FID showed 10.504, but 11.973 as for the existing state of the art method (lower FID indicates better fidelity).
한국학술정보㈜의 모든 학술 자료는 각 학회 및 기관과 저작권 계약을 통해 제공하고 있습니다.
이에 본 자료를 상업적 이용, 무단 배포 등 불법적으로 이용할 시에는 저작권법 및 관계법령에 따른 책임을 질 수 있습니다.
간행물명 | 수록권호 |
---|---|
|
10권 3호 ~ 10권 3호 |
|
10권 3호 ~ 10권 3호 |
|
22권 1호 ~ 22권 1호 |
한국정보처리학회 학술대회논문집 |
23권 2호 ~ 24권 1호 |
한국정보처리학회 학술대회논문집 |
20권 1호 ~ 20권 2호 |
한국정보처리학회 학술대회논문집 |
25권 2호 ~ 25권 2호 |
한국정보처리학회 학술대회논문집 |
25권 1호 ~ 25권 1호 |
한국정보처리학회 학술대회논문집 |
24권 2호 ~ 24권 2호 |
한국정보처리학회 학술대회논문집 |
22권 1호 ~ 23권 1호 |
한국정보처리학회 학술대회논문집 |
21권 1호 ~ 21권 2호 |
한국정보처리학회 학술대회논문집 |
18권 2호 ~ 19권 2호 |
한국정보처리학회 학술대회논문집 |
17권 1호 ~ 18권 1호 |
한국정보처리학회 학술대회논문집 |
15권 2호 ~ 16권 2호 |
한국정보처리학회 학술대회논문집 |
11권 1호 ~ 12권 1호 |
한국정보처리학회 학술대회논문집 |
12권 2호 ~ 13권 2호 |
한국정보처리학회 학술대회논문집 |
14권 1호 ~ 15권 1호 |
|
10권 2호 ~ 10권 2호 |
|
10권 2호 ~ 10권 2호 |
|
17권 1호 ~ 17권 1호 |
한국정보처리학회 학술대회논문집 |
26권 1호 ~ 26권 2호 |
자료제공: 네이버학술정보 |
---|
자료제공: 네이버학술정보 |
---|
본 자료는 원문파일이 존재하지 않거나 서비스를 위한 준비 중입니다.
빠른 시일 내에 서비스할 수 있도록 노력하겠습니다.
관련문의사항은 kiss@kstudy.com 으로 연락주시기 바랍니다.
감사합니다.
개인회원가입으로 더욱 편리하게 이용하세요.
아이디/비밀번호를 잊으셨나요?