본문 바로가기

성장할 기업&브랜드

오픈AI가 발표한 SORA의 파괴력: 텍스트(Text)에서 비디오(Video)로

728x90
반응형

 

 

TTL(Text To Video)로 만드는 영상제작 환경

오픈AI(OpenAI)에서 text-to-video 모델 소라(Sora)를 이번에 공개했습니다. 일본어로 하늘을 뜻하는 소라(Sora)는 사용자가 텍스트를 입력하면, 영상을 생성하는 AI모델로 기존 피카랩스의 PIKA, 런웨이의 GEN2가 한번에 최대 4초 길이의 영상을 만드는 것과는 다르게 최대 1분까지 영상을 생성할 수 있다는 점에서 기존 TTV(Text To Video)보다 발전을 이루었다는 평가도 받고 있습니다. 그리고 오픈AI는 최대 1080x1920, 1920x1080의 해상도를 제공하며, 프롬프터(prompt)를 통해 판타지, SF, 공포, 코미디, 애니메이션 등 다양한 장르와 테마로 영상 제작이 가능하다고 소개하고 있습니다. 현재는 오픈AI 내부 테스트 중이며, 일부 전문가들에게 배포되어 평가 및 리뷰하는 과정을 거치고 있다고 하네요.

 

 

 

출처: 오픈AI Introducing Sora — OpenAI’s text-to-video model

 

 

소라(Sora)를 통해 만들어진 영상을 볼 수 있는 사이트에도 한번 가보시면, 앞으로 TTV(Text To Video)가 어떻게 발전할지도 살펴볼 수 있을 것 같습니다. 

 

 

https://sorabeam.pickyz.io/

 

Sorabeam

 

sorabeam.pickyz.io

 

 

 

https://sorahub.video/ko

 

SoraHub - The Ultimate Platform for OpenAI Sora Generated Videos and Prompts

Cutting-edge AI creativity in one convenient platform.

sorahub.video

 

 

 

 

LLM기반의 디퓨전 트랜스포머

소라(Sora)는 기존 오픈AI의 챗GPT와 같이 LLM(Large Language Model)입니다. 텍스트 데이터를 단어, 문장, 문자와 같은 작은 단위로 나누는 텍스트 토큰(Token)을 사용하여, 데이터 훈련과 기능을 습득하는 것처럼 소라(Sora)는 비디오, 이미지를 패치(patch)라고 하는 더 작은 데이터 단위의 모음으로 분류한 후, 시공간 패치(Spacetime Patch)로 분해하는 과정을 거친다고 합니다. 그렇게 해서 정적인 노이즈처럼 보이는 비디오로 시작하여, 여러 단계를 거쳐 노이즈를 제거하고 비디오로 생성되는 디퓨전(Diffusion) 모델로 작동되는 방식입니다. 용어적으로 복잡한 부분을 좀 쉽게 설명해 본다면, 아래 그림을 참고하시는게 좋을 것 같은데요. 

 

쉽게 생각하면, 바다속에 나비라고 하면 나비라는 객체, 나비에 대한 시퀀스, 바다라는 시공간에 대한 작은 데이터로 분해하고 추출하고 이를 통해 정적인 노이즈 단계의 비디오를 단계적으로 노이즈를 제거하면서 비디오로 생성해 가는 과정을 거친다고 보면 될 것 같습니다. 기존의 챗GPT가 단어, 문장, 문자 데이터를 분해하고 추출해 가는 과정을 이미지, 동영상을 분해하고 추출함과 동시 학습과정을 통해 단계적으로 동영상을 생성해 가는 과정이라고 보면 될 것 같네요.

 

 

챗GPT Sora(소라)  TTL(Text To Video) 원리

 

 

그렇다면 데이터세트를 어디서 가져왔을까에 대한 궁금증이 남습니다. 오픈AI는 DALL-E-3라는 이미지 생성형 AI에서 이미지 데이터에서 텍스트 캡션을 학습시켜, 동영상에 대한 텍스트 캡션을 생성했다고 밝히고 있네요. 이러한 방식을 보면, 결국 사용자가 많아질수록 소라(Sora)의 동영상 품질은 더욱 좋아질 것으로 기대가 되기도 합니다. 

 

 

 

그렇다면, 앞으로 어떤 변화들이 일어날까?

긍정적인 변화로는 영상 촬영 들어가는 비용이 상당 부분 줄어들 것입니다. 만약 현실에서 촬영을 하게 된다면, 모델료, 모델에 따른 의상비, 헤어, 메이크업과 같은 인건비, 장소를 대여하거나 해외 로케이션 촬영을 하는 비용 부담 등이 줄어들게 될 것입니다. 공상 영화같은 분위기를 만들어내기 위한 소품, 세트 등에 비용도 역시도 줄어들게 될 것으로 예상됩니다. 촬영이 어려운 경우, 영상소스를 렌탈하는 게티이미지와 같은 사이트 역시도 많은 고전이 예상되기도 합니다.  물론 현재 소라(Sora)가 보여주는 영상을 보면, 실제 현장에서 사용하기 다소 부족한 부분도 있습니다. 다만 이러한 부족한 부분들이 점차 개선되어 간다면, 영상을 직접 촬영하고 제작하는 비용부담과 번거로움도 점차 사라질 수도 있겠다는 생각이 들긴 합니다. 

 

당장 현실적인 적용이 어디까지 이루어질지는 지켜봐야 하겠지만, 스토리보다는 정보전달이 중요한 뉴스, 날씨 등과 같은 부분은 소라(Sora)를 통해 빠르게 적용되어가지 않을까 싶기도 합니다. 챗GPT를 통해 뉴스를 작성하는 일들이 점차 벌어지고 있는 부분도 가치 판단 혹은 스토리가 아닌, 단순한 정보전달의 성격이 강한 뉴스라면 앞으로 더욱 적용되어 가지 않을까 싶습니다. 

 

부정적인 측면에서는 딥페이크와 같은 영상이 더욱 판을 치게될 가능성 역시도 존재합니다. 그래서 영상에 등장하는 인물을 대한 엄격한 통제 장치는 필요로 해보입니다. 소라(Sora)를 통한 딥페이크 영상에 대한 우려가 많긴 하지만, 이러한 부분은 영상에 등장하는 인물이 대부분 셀럽이 될 가능성이 많기 때문에, 엄격한 통제장치가 더해진다면 어느 정도 통제 가능성하지 않을까 생각은 되네요.

 

 

 

미래는 이미 와있다
다만 널리 퍼져있지 않을뿐

 

 

사진: Unsplash 의 Gerard Siderius

728x90
반응형