Suno AI 사용 후기
Suno AI를 활용해본 후기입니다.
시작하며
아주 잘 작동하였고 결과물도 기대 이상이었다. 월 만원 정도의 구독료로 이 정도 퀄리티라고 한다면 아주 만족스러운 결과를 얻은 느낌이다. 막귀인 나의 생각일뿐이지만 음악 산업의 전문가인 경우 이를 통해 쉬운 전처리나 영감을 얻을 방식으로 활용할 수도 있을 거라 생각한다.
사용시 고려해야 할 점
랜덤박스
AI를 통해 생성시킨 다양한 결과물을 접해볼 수 있는 것은 분명 큰 장점일 수 있으나 도박의 느낌을 지울 수가 없었다. 단순히 새로운 영감을 얻기 위한 작업이 아니라 어떤 목표가 있는 경우라면 생각보다 고달픈 운빨 작업이 될거라 생각한다. 음악의 장르와 보컬의 목소리 톤, 음악 전반의 분위기나 사용할 악기 등등 상세히 나열해도 생성형 AI의 태생때문인지 입력한 것과 다른 출력을 보일 때가 상당히 많다. 설령 그것이 잘 설명되고 상세한 프롬프트이며 전세계에서 공인된 정제된 데이터라 하더라도 예술분야에 있어 개인이 느끼는 감정은 천차만별이기 때문에 그 격차가 더 심하게 느껴지는 것 같다.
구조 메타태그
이러한 출력 결과에 대한 편차를 줄이고 좀 더 사용자의 요구를 정확하게 보정하기 위해서 Suno에서는 구조 메타태그, 음악 스타일 태그, 가사 직접 입력 등의 입력을 제공한다. 아주 잘 작동하고 그럭저럭 입력한 데로 반영된 출력을 보이지만 말 그대로 전체적인 구조와 관련된 것들이라 상세히 조정할 수는 없다. 단적인 예로 [Instrumental]
이라는 음악 중간에 쉬는 구간을 만들어주는 메타태그다.
이런 메타태그들은 음악의 구조를 구성하고 원하는 부분을 조정할 수 있지만 [Short Instrumental]
과 같이 상세하게 입력하더라도 [Instrumental]
과 동일하게 작동하는 듯 하다. 어쩌면 작동은 하지만 사람마다 'Short Instrumental'이라고 느낄 만큼의 시간이 다르기 때문에 안 되는 것처럼 느끼는 것일지 모르겠다. 오히려 가사의 길이를 조정하는 편이 더 효과적인 경우가 많았다.
음악 스타일 태그
여러가지 추가적인 설정을 할 수 있어서 좋았다. 그러나 사용자인 내가 장르를 정확히 내가 모르는 것이 문제였다. 내가 만들고 싶어하는 곡이 발라드인지 락 발라드인지 메탈인지 헤비 메탈인지 데스 메탈인지 브루탈 메탈인지 오케스트라인지 아니면 오케스트라가 가미된 바로크 메탈과 얼터너티브 락이 합쳐진 새로운 장르인가?
프롬프트를 통하여 여러 가지를 입력하여 조정할 수 있지만 Suno에서 제시해 주는 스타일과 장르를 차용하여 결국 clear voice, kpop, fast tempo, festive, happy
와 같은 형식으로 구성할 수밖에 없었다.이렇게 작성하여도 여전히 문제는 남아있는데 happy, festive, fast tempo
임에도 내가 듣기에는 노래가 우울한 건지 축축 늘어지는 건지 별로 신나지 않는 음악들이 출력에 포함됐었다. 분명 축제 때 틀면 선곡한 사람 욕을 한 바가지 먹을만한 곡이었다. 결국 뽑기 운에 몸을 맡기고 create 버튼을 연타하는 나를 보게 됐다.
나 처럼 흥미본위의 사용자라면 그냥 이 정도만 경험해보는 것을 추천한다. 기술적 한계든지 아니면 사측의 이익을 위한 교묘한 BM의 구현인지 알 방법은 없지만 어쨌든 어떤 목적을 달성하기 위하여 랜덤박스를 돌린다는 것은 너무도 고달픈 작업이다. 차라리 이곳에 들일 돈을 포함하여 전문가를 고용하는 것이 나을 것 같다.
작사
음악의 길이, 분위기, 언어, 자연스러움을 위해서는 가사를 직접 입력하는 것이 필수적이다. 생성된 가사를 사용해도 상당히 고품질의 결과물을 볼 수 있지만 결국 이것도 랜덤박스이다. 가사를 직접 입력할 경우에는 저작권에 대해 고민을 해봐야 하는데 여기서 부터는 내가 Suno AI를 왜 써야하는지 이유를 찾아야 할 것이다. 흥미가 없다면 계속 진행할 수 없는 노가다의 영역으로 진입하게 된다.
작업 순서
{{가사 변경, 스타일 변경, 구조 변경} > 랜덤박스 > 출력확인} > 끝
중괄호로 감싸인 부분은 반복작업을 나타낸다. 간단한 단계만 거치면 출력결과를 확인할 수 있기 때문에 쉽고 빠르게 사용할 수 있다. 커버 앨범도 AI를 통해 생성할 수 있다. 다른 사람이 생성한 앨범커버와 중복될 가능성이 있다고는 하지만 이미지와 음악 모두 1000 크레딧 정도 사용해보면서 중복된 결과물을 본 적은 없다.
이 이야기는 저작권에 비교적 자유롭다는 말이 될 수도 있지만 다르게 생각해보면 동일한 데이터를 입력해도 전혀 다른 결과물이 나온다는 이야기다. 이러한 출력 양상은 이 랜덤박스를 사용하는 사용자의 피로도를 높이는 주범이 된다. 다음과 같은 경우를 상상해보자.
- 뽑기 운이 아주 좋았다. 너무 내 마음에 쏙드는 음악이 나왔다.
- 두근거리는 마음을 안고 듣던 중... 한 글자의 발음을 저는 것을 확인하였다.
- 나는 이 뭉게진 발음을 감내 할 수 있는가? 생각해본다.
- 미련없이 휴지통에 넣고 다시 1로 돌아간다...
아무리 마음에 드는 출력이 나왔다고 해도 같은 동일한 입력을 통해 그 음악을 다시 만들 수가 없다. 생성형 AI의 내부적인 SEED 값을 동일하게 주더라도 발음이 전 상태의 이상한 출력 결과만 받을 수 있을 것이며 SEED 값을 조금만 조정하더라도 완전히 다른 결과가 출력될 것이기 때문에 선택할 수 있는 길은 그렇게 많지 않다.
생성 기능 중 Extend라고 하는 기능이 있었기에 사용해 보았으나 비슷한 분위기의 Part2라는 전혀 다른 노래를 만드는 것이지 출력 결과를 조금 수정하는 것이 아니다. 내가 음향 편집 전문가라면 편집 도구로 어떻게든 하겠다만 무지몽매한 나는 '운이 나빴구나' 하고 다시 랜덤박스를 돌리게 되어 있었다.
예시로 든 것처럼 가사의 길이와 발음이 출력에 영향을 주게 되어 있다. 예를 들면 '먁'과 같은 것은 이놈이 발음을 하지 않고 얼버무리면서 지나가거나 전혀 알 수 없는 말을 지껄이는 등 이상한 행태를 보이기도 한다. 발음이 정확하게 나오도록 비슷한 발음의 문자로 가사를 수정하는 등 여러 우회 방법을 찾아야만 했다.
라이센스 정책
Pro 플랜 이상일 경우 생성한 음악이 구매자 본인에게 소유권이 있으므로 상업적 목적으로 활용이 가능하다. 단, 구매 이전까지 소급 적용되지 않기 때문에 Free 플랜일 때 생성한 음악은 소유권이 Suno에게 있어 상업적 목적으로 사용할 수 없고 정책에 따라 이용해야 한다.
결론
만들어 봤으니 써먹어보기 위해 유튜브에 업로드를 해보았다. 유튜브에 업로드할 때에는 유튜브 운영정책에 따라 '변경된 컨텐츠'임을 알려야 한다. 업로드를 하면서도 몇 가지 장벽들을 만났는데 일단 음악 컨텐츠 임에도 썸네일 이미지 편집, 영상 편집과 같은 추가적인 작업이 필요하다. 정지된 화면에 오디오만 나오는 것 보다는 이퀼라이저 효과를 표시한 영상과 적당히 배치된 가사를 보여주거나 가능하다면 멋진 타이포그래피를 만드는 것이 조회수에 더 많은 긍정적인 효과를 기대할 수 있기 때문이다. 그러나 나는 이미 랜덤박스로 지쳐버린 심신으로 인해 이 고통을 그만 끝내기로 하고 그냥 업로드 하였다.
장난반으로 시작하여 가벼운 마음으로 처음엔 즐겁게 잘 작업하다가도 이게 천성 때문인지 아니면 조금만 더 하면 될거 같은 사람의 욕심 때문인지 점점 더 힘든 작업으로 이어졌다. 새로운 음악을 직접 만들고 감상할 수 있다는 것은 정말 큰 장점이라 생각한다.
AI 상용 프로그램을 사용해 볼 수 있는 쪽으로도 아주 좋은 기회였다. AI 서비스로 월 만 원이라도 받으려면 서비스 품질의 수준이 이 정도는 되어야 한다는 것을 알 수 있는 아주 좋은 경험이었다. 또, 비록 '뽑기'한 것이지만 내 인생에 없으리라 생각했던 '내 소유권의 음악'을 가질 수 있다는 점도 신선하였다.
생성형 AI에 대한 생각
이 작업을 진행하면서 주변인의 추천으로 Stable Diffusion(SD)도 직접 설치하고 사용해봤다. 생성형 AI를 통하여 한 분야의 진입장벽이 말도 안되게 낮아진다는 점이 참 대단하다. 그러나, 해당 분야의 깊은 조예 없이는 '결정'이라고 하는 중대한 마무리가 불가능하다는 것을 느꼈다. 어쨌든 한 동안은 '전문가를 위한 보조도구' 그 이상의 기대를 하기엔 무리가 있을 것이라 생각한다.
실수 연산의 경우 근사값으로 적당히 뭉개고 가는 경우도 있다만 컴퓨터는 기본적으로 99.9999%의 정확도를 가진다해도 단 하나의 오류를 내포하고 있다면 나머지 출력도 신뢰할 수 없는 오류로 취급된다. 같은 입력에는 같은 출력이 100% 보장되어야만 컴퓨터로써 의미를 가지는 것이다.
GPT, Suno, SD 등 '생성된 출력 결과가 100%의 정확도를 보장할 수 없음'은 조금이라도 써본 사람이라면 모두 공감할 것이다. 이 글에서도 소개했듯이 발음이 뭉개지거나 이미지 생성의 경우 손가락, 색, 얼굴이 뭉개지는 등 다양한 출력 결과들을 만나볼 수 있다. 그중에서도 가장 널리 알려진 것은 당연히 GPT의 경우인데 자신감 있게 정확한 답변을 보여주지만 잘못된 답변을 본 적이 참 많이 있다.1 이어서 '아닌데?'라고 하면 조금도 생각 안 하고 '죄송합니다. 제가 잘 못 알려드렸습니다.'라고 태세 전환을 해버린다.
활용 방안
이 글을 작성하는 나는 객관적으로 그렇게 머리가 좋은 편은 아니고 나이도 점점 먹어가기 때문에 변화와 신기술에 보수적인 시선을 가지고 있다. 그래서 이런 글 하나로 기술의 발전을 나쁜 시각으로만 보려는 것은 좋지 않다. 다르게 생각해 보면 100%가 아닌 분야에는 GPT로 생성된 결과를 활용할 수 있다.
소비자가 암묵적으로 '별로 중요한 정보는 아니니 봐줄게'라고 넘어갈 수 있는 부분에서 활용이 가능하다. 예를 들면 블로그 포스트의 커버 삽화나 뉴스 기사의 삽화 등을 예로 들 수 있다. 콘텐츠를 이루는 핵심은 아니지만 보조할 수 있는 수단으로 제격이다.
실제로도 전체 콘텐츠에서 차지하는 비중은 높지 않지만 이런 삽화는 없으면 아쉽고 찾자니 시간이 걸리는 귀찮은 작업이다. 저작권에 문제 없이 내 마음에 쏙드는 사진을 찾는 것이 생각보다 많은 품이 들어가는데 생성형 AI를 활용하게되면 이런 불필요한 시간을 대폭 줄이고 좀 더 콘텐츠의 주요 내용에 집중하여 퀄리티를 높일 수 있다.
또 다른 적용 분야를 생각해 보자면 '예술적 표현', '연구방향 제시', '초기 진입 교육' 부분에서 많이 활용할 수 있겠다. 출력 결과가 완벽하지 않기 때문에 실패를 염두에 두거나 어느 정도 불확실한 출력을 감안하는 분야이기 때문이다. 어차피 실제 결과물을 만드는 데 있어서 구글링하거나 전문가가 정확하게 테스트하고 적용하는 기존 방식을 사용해야 할 것이다.
어떻게 검색해야 할지 막막해서 그냥 대충 이야기하듯 물어볼 때에도 아주 편리하였다. 새로운 분야를 공부할 때에도 참 편리했는데 어디서부터 시작해야 될지 몰라 입문을 위한 커리큘럼을 짜달라고 하면 왕도는 아니어도 시작은 해볼 수 있는 납득할 만한 결과들을 볼 수 있었다.
한계점
프로그래머들이 많이들 사용하는 Copilot 또한 비슷한 맥락이다. 생성형 AI가 50% - 80%를 제안하고 사용자가 승인하여 100%에 가깝게 만드는 작업이다. 생성된 예제 코드를 활용하여 사용자는 조금 더 빠르고 편리하게 프로그램을 작성할 수 있다. 여기에서 코드를 이미지로, 텍스트로, 기타 결과값으로 바꿔 생각해 본다면 모든 생성형 AI는 결국 최종 결정권자인 '사용자의 승인'이 필요하고 승인을 위해서는 반드시 완성도를 채우기 위한 편집이 필요하다. 때문에 생성형 AI라는 같은 도구를 사용해도 사용자마다 결과물의 완성도는 상이할 수 밖에 없다.
출력 결과를 통해 목적을 달성하려면 안정성, 대중성, 준법성, 수익성, 완성도, 사회성, 도덕성, 정당성, 유지가능성 등을 모두 생각해봐야 한다. 단순히 재미를 위한 것이라면 몇 가지로 줄일 수 있겠지만 일반적인 목적이 '돈'인 이상 고려해야 할 점은 더 많아 진다. 흥미를 넘어 목적을 이루기 위해서는 필연적으로 '이 출력결과가 나타내고 있는 분야에 대해서 얼마나 알고 있으며 얼마나 완성도 있게 편집할 수 있는가?' 라는 본질적인 물음과 마주하게 된다.
생각보다 '딸깍'만으로 해결할 수 있는 문제는 흔치 않았다. 파인튜닝을 아무리 잘 하더라도 만들어낸 출력을 검증 없이 믿고 쓸 이유도 없고 쓴다 하더라도 대중의 눈썰미는 상당히 높아 속일 수 없다. 극도로 정밀한 극한의 파인튜닝을 통해 수준급의 출력을 만들 수 있다고 하더라도 검증과 최종 결정은 여전히 사용자의 손에 달려있고 그전에 이미 파인튜닝을 수행할 수 있는 정도의 사람이라면 부득불 그 분야의 전문가이어야만 하는 모순도 존재한다.
하루가 다르게 더 정밀하고 자연스러워지는 것을 보고 있노라면 정말 '특이점'이라고 하는 것이 얼마 안 남은 것 아닌가 하는 불안감이 엄습하기도 하고 기대되기도 한다. 그러나 아직 갈 길은 멀어 보인다. 현시점에서 수익성을 고려한 콘텐츠를 생성형 AI에게 전적으로 맡기기보다는 보조도구로써 잘 활용하여 자신의 생산성을 높이는 쪽으로 사용하는 것이 더 좋은 효과를 가질 것이라 생각한다.
Footnotes
-
환각 현상이라고도 칭하는데 주변인들은 '그럴듯한 개소리'라고 일컫는다. ↩
초판: 2025. 09. 22. 21:05:37
© 2025 이 문서는 "CC BY 4.0 국제규약" 라이선스로 배포 되었습니다. 모든 권리는 저자에게 있습니다.