롱폼 영상 제작 가이드

1 대본 생성

롱폼 영상의 첫 번째 단계는 AI를 활용한 대본 생성입니다. 주제와 길이를 설정하면 AI가 자동으로 대본을 작성합니다.

에피소드 이름

영상 파일이 저장될 폴더명으로 사용됩니다. output/{에피소드명}/ 경로에 저장됩니다.

영상 제목

AI에게 전달되는 주제입니다. 원하는 영상의 주제를 구체적으로 입력하세요.

영상 길이 선택

1~2분 — 테스트용, 빠른 확인 (400~600자, 5~8장면)
5분 — 짧은 콘텐츠 (1,500~2,000자, 15~20장면)
10분 — 중간 길이 (3,000~3,500자, 10~12장면)
15~20분 (기본) — 표준 롱폼 (5,000~6,000자, 17~20장면)
30분 — 긴 콘텐츠 (9,000~10,000자, 30~35장면)

장면당 글자 수

200~500자 범위로 설정할 수 있으며, 기본값은 260자입니다. 글자 수가 많을수록 장면 수가 줄어들고, 적을수록 장면이 잘게 나뉩니다.

고려사항 메모

대본 생성 시 AI에게 전달할 추가 지시사항입니다. 원하는 스타일, 톤, 반드시 포함할 내용 등을 자유롭게 작성하세요.

웹 검색

Gemini 키 또는 Google Search API 키가 설정되어 있으면, 대본 생성 전에 자동으로 관련 정보를 웹에서 검색하여 대본에 반영합니다. 더 정확하고 최신 정보가 담긴 대본을 만들 수 있습니다.

💡 권장: Gemini 키만 입력하면 별도 설정 없이 웹 검색이 자동으로 활성화됩니다.

전체 실행

"전체 실행" 버튼을 누르면 대본 생성부터 영상 완성까지 모든 단계가 자동으로 연속 실행됩니다.

팁: 고려사항에 '~한 톤으로', '~를 반드시 포함' 같은 지시를 넣으면 원하는 방향의 대본을 얻을 수 있습니다.

2 장면 분할

AI가 대본을 장면 단위로 자동 분할합니다. 각 장면은 나레이션 대사와 이미지 프롬프트(영어)로 구성됩니다.

장면 구성

대사 (나레이션) — TTS로 음성 변환될 텍스트
이미지 프롬프트 (영어) — 이미지 생성 AI에 전달될 프롬프트

편집 기능

장면 목록에서 개별 장면을 선택하여 대사와 이미지 프롬프트를 자유롭게 수정할 수 있습니다. 장면 삭제 및 추가도 가능합니다.

주의: 장면 분할 후 대본을 다시 생성하면 기존 장면이 초기화됩니다.

3 TTS 음성 생성

각 장면의 대사를 자연스러운 음성으로 변환합니다. 여러 TTS 엔진 중 원하는 것을 선택하세요.

TTS 엔진 선택

MiniMax (권장)
자연스러운 한국어 음성, 가성비가 뛰어납니다. 남성 10종 + 여성 10종, 총 20종의 음성을 제공합니다.
TypeCast
한국어 특화 엔진으로, 남성 10종 + 여성 10종의 다양한 캐릭터 음성을 제공합니다.
ElevenLabs
프리미엄 품질의 한국어 전용 음성. 남성 14종 + 여성 6종, 감정 표현이 우수합니다.

음성 선택

각 엔진의 음성 목록에서 원하는 음성을 선택하세요. 커스텀 음성 추가도 가능합니다.

속도 조절

0.8x ~ 1.5x 범위로 음성 속도를 조절할 수 있습니다. 기본값은 1.0x입니다.

미리듣기

버튼을 눌러 선택한 음성의 샘플을 미리 들어볼 수 있습니다.

참고: MiniMax가 가장 많이 사용되며, 가입 시 무료 크레딧이 제공됩니다.

4 이미지 생성

각 장면의 이미지 프롬프트를 기반으로 AI가 이미지를 생성합니다. 다양한 모델 중 예산과 품질에 맞게 선택하세요.

이미지 모델 선택

모델	가격	특징
Flux 2 Flash	$0.005/장	기본값, 빠르고 저렴
NanoBanana Pro	$0.15/장	고품질
NanoBanana	$0.039/장	중간 품질
Gemini 3 Pro	$0.15/장	Google AI
Gemini 2.5 Flash	$0.039/장	Google AI 경제형

프리미엄 이미지 수

전체 장면 중 특정 장면 수만 고품질 모델로 생성하고, 나머지는 기본 Flux 2 Flash로 생성합니다.

"전체" 체크

"전체" 옵션을 체크하면 모든 장면에 선택한 프리미엄 모델이 적용됩니다.

팁: 비용을 절약하려면 핵심 장면만 프리미엄으로, 나머지는 기본 Flux로 설정하세요. Flux 2 Flash는 장당 $0.005로 20장면 기준 $0.1 (약 140원)입니다.

5 영상 생성

음성과 이미지를 결합하여 최종 영상을 생성합니다. 다양한 효과와 자막을 설정할 수 있습니다.

AI 영상 생성 (선택)

정지 이미지 대신 AI가 생성한 동영상 클립을 사용할 수도 있습니다.

모델	가격	특징
Seedance 1080p	$0.25/5초	기본 추천, 가성비
Grok 720p	$0.25/5초	빠른 생성
Veo 3.1 Fast 1080p	$0.90/6초	고품질 빠른 생성
Veo 3.1 1080p	$2.40/6초	최고 품질
Sora 2 720p	$0.40/4초	OpenAI
Sora 2 Pro 1080p	$2.00/4초	OpenAI 프로
Kling v3 1080p	$0.84/5초	고품질

참고: AI 영상 생성은 이미지 생성보다 비용이 높습니다. 핵심 장면에만 선택적으로 적용하는 것을 권장합니다.

이미지 효과

줌 인/아웃, 팬 좌/우 등 효과로 정지 이미지에 자연스러운 움직임을 부여합니다.

효과 강도: 0~100% (기본 80%)

전환 효과 (19종)

장면과 장면 사이에 적용되는 전환 효과를 선택할 수 있습니다.

fade, dissolve, pixelize, radial, circleopen, circleclose, zoomin, wipeleft, wiperight, wipeup, slideleft, slideright, smoothleft, hlwind, hrwind, vuwind, vdwind, squeezeh, squeezev

랜덤 모드: 각 장면마다 다른 전환 효과를 자동으로 적용
전환 시간: 0.2~2.0초 조절 가능

자막 설정

폰트: 시스템에 설치된 한글 폰트 자동 감지
크기, 색상: 자유롭게 조절
위치: 상단 / 중앙 / 하단
외곽선: 색상 및 두께 설정
배경: 자막 배경 색상 및 투명도 설정, 또는 배경 없음

BGM

기본 제공되는 BGM 또는 커스텀 BGM 파일을 영상에 추가할 수 있습니다.

워터마크

이미지 오버레이로 워터마크를 추가합니다. 위치, 크기, 투명도를 조절할 수 있습니다.

타이틀 영상

data/title_video/title.mp4 파일이 있으면 영상 시작 부분에 자동 삽입됩니다.

참고: 전환 효과는 pixelize가 기본값이며, 랜덤 모드로 다양한 효과를 자동 적용할 수 있습니다.

6 메타데이터 생성

YouTube 업로드에 필요한 메타데이터를 AI가 자동으로 생성합니다.

AI 자동 생성 항목

영상 제목 — SEO 최적화된 제목
설명문 — 챕터 타임스탬프 포함
태그 — 관련 키워드 자동 추출
카테고리 추천 — 콘텐츠에 맞는 YouTube 카테고리

타임스탬프

각 장면의 오디오 파일 길이를 분석하여 정확한 MM:SS 형식의 타임스탬프를 자동 계산합니다. YouTube 설명란에 챕터 구분으로 활용됩니다.

편집

생성된 메타데이터는 모두 직접 수정할 수 있습니다. AI가 생성한 내용을 기반으로 원하는 대로 편집하세요.

팁: 메타데이터의 타임스탬프는 오디오 파일 길이를 기반으로 정확하게 계산됩니다.