텍스트를 영상으로 변환하는 법 (text-to-video) — 글만 쓰면 영상이 나온다
텍스트를 영상으로 변환하는 기술(text-to-video, t2v)은 "글로 설명하면 AI가 그 장면을 영상으로 그려 주는" 방식입니다. 촬영도, 편집도 없이 문장만으로 영상이 만들어지죠. 이 글에서는 텍스트 영상 변환의 개념과 동작 원리, 좋은 결과를 얻는 프롬프트 작성법, 그리고 쇼츠메이커에서 실전으로 적용하는 흐름까지 정리합니다.
텍스트 영상 변환(t2v)이란
t2v는 자연어 문장(프롬프트)을 입력하면 AI가 해당 장면을 영상으로 생성하는 기술입니다. 예를 들어 "노을 지는 바닷가, 갈매기가 날아오르는 장면, 천천히 카메라 줌아웃"이라고 쓰면, 그 묘사에 맞는 5초 내외의 영상이 만들어집니다.
- t2v(텍스트 → 영상): 빈 화면에서 시작, 자유도 최고
- i2v(이미지 → 영상): 이미지에서 시작, 일관성 우위
"머릿속 장면을 처음부터 영상으로 뽑고 싶을 때"는 t2v, "확정된 비주얼에 움직임만 넣고 싶을 때"는 i2v가 적합합니다.
텍스트로 영상 만드는 4단계
1. 장면을 문장으로 쪼개기
하나의 긴 이야기를 한 문장에 욱여넣지 마세요. 한 컷 = 한 장면 = 한 동작으로 나눕니다.
2. 프롬프트 구조 잡기
좋은 영상 프롬프트는 보통 이런 구조를 따릅니다.
예: "시네마틱 미니어처 장면, 주황 작업복을 입은 작은 인부 한 명이 케이크 산을 오르는 모습, 어두운 배경, 느린 돌리인, 위에서 떨어지는 극적인 조명"
3. 길이·비율 설정
쇼츠라면 9:16 세로 비율, 길이는 짧게(보통 5~8초 단위 클립)로 잡습니다.
4. 생성 후 다듬기
여러 클립을 만들어 이어 붙이고, 자막·음성·BGM을 더해 완성합니다.
좋은 t2v 결과를 얻는 핵심 원칙
- 한 프롬프트에 동작은 1~2개: "달리면서 점프하고 손을 흔든다"처럼 동작이 많으면 형태가 깨집니다.
- 추상적 표현보다 구체적 묘사: "멋지게"보다 "느린 돌리인, 위에서 떨어지는 조명"처럼 시각 정보를 줍니다.
- 품질 키워드 남발 금지: '8K' 같은 키워드를 무작정 붙인다고 좋아지지 않습니다.
- 스토리는 컷으로 분할: 긴 서사는 Setup → Action → Outcome 3컷 구조로 나눠 각각 생성하면 안정적입니다.
쇼츠메이커로 텍스트 영상 변환 실전 적용
쇼츠메이커의 '주제로 영상' 기능은 t2v 워크플로우를 자동화합니다. 주제(텍스트)만 입력하면 대본 생성 → 장면 구성 → 영상 생성 → 자막·음성 결합까지 이어집니다.
- 영상 모델: Seedance 1.5 Pro(가성비 기본)·Wan 2.2 a14b·Kling·Veo·Luma 등에서 선택, 크레딧 모델별 차등.
- 음성(TTS): Free 4종, Starter 9종, Pro는 OpenAI 9 + ElevenLabs 한국어 13을 더해 22종까지. 미리듣기 지원.
- 이미지 스타일: 실사·시네마틱·클레이·미니어처·애니·수채화 등 15종.
- 영상 길이: 15·30·45·60·90초(Free는 15·30초).
검증된 프롬프트 구조 위에서 변수만 바꾸는 방식이라, 프롬프트 전문가가 아니어도 품질이 안정적으로 나옵니다. 무료 플랜(월 3,000 크레딧)으로 먼저 테스트해 보고, 전체 모델과 자동화가 필요하면 Pro로 넘어가면 됩니다.
정리
텍스트를 영상으로 변환하는 t2v는 촬영 없이 문장만으로 영상을 만드는 가장 빠른 길입니다. 핵심은 ① 장면 분할, ② 구조화된 프롬프트, ③ 한 컷 1~2동작입니다. 직접 프롬프트를 다듬기 부담스럽다면 쇼츠메이커의 '주제로 영상' 기능으로 주제 한 줄만 넣어 완성할 수 있습니다.
함께 보면 좋은 가이드