본문 바로가기

성장할 기업&브랜드

챗GPT와 팔란티어 온톨로지 차이점: 팔란티어 이해하기(2)

728x90
반응형

 
 
오픈AI가 챗GPT를 공개하면서, AI는 역사에 큰 전환점을 마련한 사건일 것입니다. GPT는 Generative Pre-trained Transformer <생성형 미리 학습된 트랜스포머>라고 단어적으로 이해를 하면 쉬울 것 같은데요. <트랜스포머>란 자연어 처리를 통한 모델 아키텍처입니다.  그리고 미리 학습된이라는 부분은 LLM(Large Language Models)이라는 거대언어모델을 학습한 부분이라고 이해하시면 됩니다. 생성형이라는 의미는 AI 분야에서 데이터를 분석하고 이해하는 데 그치지 않고, 새로운 정보를 만들어내거나 창작할 수 있는 능력을 가졌다는 부분에서 중요한 의미를 가지고 있습니다. 생성형이라는 것은 향후 수많은 다양한 능력을 가진 AI가 만들어질 수 있다는 점에서 인류는 이제 거대한 AI시대의 앞에 서있는 것이라고 할 수 있겠습니다.
 
 
 

 
 
 

처음 인류가 대면한 첫번째 AI: GPT

하이텔, 나우누리 같은 초기 인터넷 서비스처럼 지금 직면한 챗GPT는 초기 버전으로 앞으로의 발전속도는 더욱 빨라질 것으로 생각됩니다. 또한 사용자들이 편리하게 사용할 수 있도록 발전해갈 것으로 생각됩니다.
 
거대언어모델(LLM)을 기반으로 한 기술은 구글과 오픈AI에서 처음 시도되었습니다. 실제로는 가장 먼저 시작한 곳이 구글입니다. 2017년 트랜스포머를 발표한 구글은 이를 통해 다양한 테스트를 진행해왔습니다. 그 중 하나가 2018년 공개된 버트(BERT)는 감성을 분석하는 기존 자연어 처리 태스크에 비해 탁월한 성능을 보여주기도 했습니다.
 
그리고 비슷한 시기에 오픈AI는 트랜스포머 구조를 기반으로 2018년 GPT1(매개변수 1.17억개), 2019년 GPT2(매개변수 15억개), 2020년 GPT3(매개변수 1750억개)로 확장하면서 발전되어 오고 있는데, 여기서 스케일링의 법칙(Scaling Law)이 적용되고 있다는 점에서 빅테크 기업들은 적극적인 투자를 하고 있는 상황입니다. 즉 모델크기, 데이터 양, 학습비용(계산량)이 증가함에 따라, 모델 성능도 비례해서 개선된다는 점입니다. 물론 초기에는 회의론이 있었던 부분도 있었다고 합니다. 하지만 2022년 발표한 구글 연구팀에 따르면, 어떤 임계점을 넘어서면 새로운 능력이 출현(Emergence)한다고 밝히기도 했습니다. 머신러닝은 다양한 형태의 데이터를 통해 패턴을 찾고 예측하는데 중점을 두고 있다면, GPT는 딥러닝(인공 신경망)의 특화된 분야로 대규모 언어학습 모델을 기반으로 언어의 패턴과 문맥을 학습하여 텍스트로 생성하는데 특화가 되었다는 차이도 있겠네요. 
 
 
 

 
 
 

방대한 텍스트 데이터를 통한 사전 학습(Pre-training)

챗GPT는 방대한 양의 텍스트 데이터를 기반으로 학습을 시작합니다. 예를 들어, 인터넷에 있는 뉴스 기사, 책, 논문, 대화 기록 등을 학습 데이터로 사용합니다. 이를 통해 문장 구조, 단어의 의미, 문맥에서의 단어 관계 등을 이해하게 되는데요. 예를 들면, "어제 저녁에 친구와 영화관에 갔다."라는 문장이 있다면, GPT는 '저녁'이라는 단어와 '영화관'이 함께 나올 확률이 높다는 것을 배우게 되는데, 이러한 수백억 개의 문장 패턴을 <사전 학습>하여, 언어의 패턴을 익히게 되는 과정이라고 보시면 되겠습니다.  
 
GPT의 거대언어모델(LLM)의 사전 학습은 <비지도 학습>으로 이루어집니다. <비지도학습>은 입력 데이터의 숨겨진 구조나 패턴을 찾는 것으로 정답이 없으며, 모델은 데이터를 분석하고 패턴이나 관계를 발견하는데 목적을 두고 있습니다. 즉 방대한 텍스트 데이터에서 언어의 패턴과 문맥을 학습하는 단계로 언어 구조와 상관관계를 파악하기 위한 목적이라고 하겠습니다. 이후 <지도 학습> 단계는 질문-답변 쌍으로 훈련을 시키는 과정으로 챗GPT의 경우 사용자와의 피드백을 통해 이루어지는 단계라고 보시면 이해가 쉽겠습니다. 
 
챗GPT와 같은 거대언어모델(LLM)의 사전 학습 방식(Pre-training)은 크게 <지도 학습>과 <비지도 학습>으로 구분되어진다고 보면 되는데요. <지도 학습>은 입력 데이터와 정답을 쌍으로 이루는 상태입니다.<지도  학습>의 주된 목적은 입력과 출력(정답)을 연결하는 관계를 학습하는 것으로 즉, 주어진 입력에 대해 정확한 출력을 예측하는 모델을 만드는 것이라고 할 수 있습니다. 이에 반해 <비지도학습>은 입력 데이터의 숨겨진 구조나 패턴을 찾는 것으로 정답이 없으며, 모델은 데이터를 분석하고 패턴이나 관계를 발견하는데 목적을 두고 있습니다. 챗GPT와 같은 거대 언어 모델은 <비지도 학습>과 <지도 학습>을 모두 활용하지만, 초기의 사전 학습(Pre-training) 단계에서는 <비지도 학습>이 주로 사용된다고 할 수 있습니다. 즉 방대한 텍스트 데이터에서 언어의 패턴과 문맥을 학습하는 단계로 언어 구조와 상관관계를 파악하기 위한 목적이라고 하겠습니다. 이후 <지도 학습>을 통해 질문에 답변하는 능력을 높이기 위해 질문-답변 쌍으로 훈련시키는 과정을 거친다고 보면 되겠습니다. 즉 정답 레이블이 있는 데이터를 활용하는 것입니다. 
 
<사전 학습> 후, 챗GPT 모델의 응답이 더욱 인간적이고 유용하게 만들기 위해 미세 조정 단계를 거치는데요. 결국 인간의 피드백을 반영하는 방법으로 <지도 학습>이 거치게 되면서 미세 조정 단계를 거치는 것입니다. 이후에는 <강화 학습>을 통해 챗GPT는 답변을 개선합니다. 이 과정에서는 사람이 모델의 답변에 피드백을 주고, 더 좋은 답변을 보상하여 모델이 스스로 학습할 수 있도록 합니다. 우리가 챗GPT를 사용하면서 좋아요, 싫어요와 같은 버튼을 통해 <강화 학습>이 이루어지고 있다고 보면 되겠네요.
 
 
 

매개변수의 확대와 멀티모달

매개변수(parameter)는 AI 모델이 학습 데이터를 통해 문맥을 이해하고 패턴을 학습하는 데 중요한 역할을 하는데요. 매개변수는 파라미터(parameter)라고 불리기도 합니다. 쉽게 매개변수는 GPT가 학습과정에서 방대한 데이터로부터 얻은 지식과 패턴을 수백억, 수천억개의 숫자로 만들어지는 학습결과입니다. 그래서 데이터는 GTP에 필요한 원재료라면, 매개변수는 원재료를 바탕으로 학습한 결과물이라는 점에서 차이가 있다고 이해하시면 쉬우실 듯합니다. 지속적으로 매개변수는 확장되면서 GPT-4는 1750억개 이상의 매개변수를 가지고 있다고 알려져 있는데요. 매개변수의 확장은 언어적 뉘앙스까지 처리할 수 있도록 발전을 거듭하고 있기도 합니다. 
그리고 텍스트라는 데이터를 넘어서, 멀티모달(multimodal)은  텍스트뿐만 아니라 이미지, 음성, 비디오 등의 여러 형식을 동시에 처리할 수 있도록 발전하고 있기도 합니다. 예를 들어, GPT-4는 텍스트뿐만 아니라 이미지 분석과 설명, 심지어 비디오 및 음성 데이터 처리까지도 밝히면서, 거대언어모델(LLM)이 더욱 발전하고 있는 상황이기도 합니다. 결국 멀티모달 기능은 챗GPT가 텍스트 외의 다양한 데이터를 이해하고, 이를 통합하여 더 풍부한 결과를 생성하는 데 중요한 역할을 할 것으로 예상됩니다.
 
 
 

챗GPT 거대언대모델의 한계

기본적으로 거대언어모델(LLM)은 텍스트를 기반으로 한 확률 모델입니다. 가장 가능성이 높은 언어의 조합을 생성하는 원리라는 점에서 언제나 오류가 존재할 수 있다는 점은 유의를 해야할 것입니다. 그럴듯한 답변을 내놓고 있지만, 그럴듯함을 추구하는 사전학습으로 인해 전적으로 챗GPT를 신뢰하는 것은 현재까지는 약 20% 오류가 발생할 수 있다는 점입니다. 그리고 정확한 근거를 가지고 답변을 하기 보다는 텍스트 데이터가 많이 언급되거나, 특정 분야의 학습 데이터가 많은 경우 편향된 답변을 내놓을 가능성도 있겠습니다. 예를 들어 특정 이슈에 대한 부정적인 텍스트들이 많을 경우, 중립적 판단보다는 부정적인 텍스트를 하나의 가능성 높은 조합으로 인지하고 답변을 가능성이 있을 수 있겠습니다. 물론 법적 판단 같이 중립적인 텍스트 데이터의 경우는 인간처럼 감정에 휘둘리지 않고, 기존 법적 판례에 따라 중립적인 답변을 내놓을 수 있다는 점은 장점이기도 할 것입니다. 
 
 
 

 
 
 

챗GPT와 팔란티어 온톨로지 차이점: 인문학적 접근

<사전 학습> 단계를 거쳐 우리와 이야기를 나누는 챗GPT를 활용하는 방법은 단순한 질문에서 끝나는 것이 아니라, 지속적인 질문과 답변을 통해 의미있는 생각이나 답변을 찾아가는 도구로 활용되는데 적합한 모델입니다. 위에 설명한 것처럼 챗GPT가 사전학습-지도학습-강화학습의 단계를 거치는 과정을 보면, 챗이라는 말처럼 대화를 통해 보다 심도있는 답안을 찾아가는데 유효하다고 생각하시면 되겠습니다. 그래서 챗GPT는 대화라는 커뮤니케이션 과정을 통하는 AI라는 점에서 사용목적에서 팔란티어 온톨로지와는 차이가 있다고 볼 수 있는데요. 
 
팔란티어의 온톨로지는 데이터의 의미를 이해하고, 그 의미를 바탕으로 데이터를 연결하는 방법으로 인문학적 이해를 가지고 데이터를 어떻게 접근할 것인가에 대한 새로움을 가진 방법론이라고 생각됩니다.  GPT모델과 다른 점이라면, 방대한 텍스트의 사전 학습을 통해 언어를 이해하는 AI모델이기는 하지만, 여전히 패턴화된 높은 확률 값을 추구한다는 점에서 여전히 텍스트가 가진 의미를 이해하는데는 현재까지 취약할 수 있습니다. 온톨로지는 데이터와 개념 간의 관계를 정의하고, 구조화하는 기술하는 플랫폼을 통해 데이터 중심의 분석과 의사결정을 돕기 위한 역할로 활용되고자 만들어진 플랫폼입니다. 그래서 GPT와는 목적에서 차이가 있다고 생각됩니다. 다만 GPT모델에 대해서 단지 확률이라는 단어로 인해 평가절하를 받지는 않았으면 하는데요. 확률이라는 부분을 단지 수학적인 입장에서 볼 문제는 아니라고 생각되기 때문입니다. 우리가 살아가는 과정에서 보면, 높은 확률을 통해 성공, 안정, 수익 등을 찾는 과정 역시 확률과도 비슷한 문제일수 있기 때문입니다. 그리고 인간의 언어를 학습하고 이해했다는 점은 실제 점점 인간의 지능과 감정까지 배우갈 수 있는 초입단계라는 점에서도 쉽게 평가절하할 문제는 아닌 할 것입니다. 
 
실제 데이터 학습을 하거나, 수많은 데이터를 보고 있는 경우 빅데이터의 양을 걱정하기 보다는 데이터들 속에서 어떤 가치나 어떤 상관관계가 있는지를 찾아내는 과정이 중요하다는 것을 느끼는 경우가 많은데요. 그래서 데이터 사이언티스(Data Scientist)가 아니라 데이터 아티스트(Data Artist)가 필요하겠구나라는 생각을 갖은 적이 있기도 합니다. 그래서 온톨로지 모델을 보면서, 아직까지 대략적인 개념정도만 공부를 하고 있는 단계이지만, 아이디어 자체의 매우 참신하다고 생각했던 이유이기도 하네요. 팔란티어의 온톨로지 모델을 보면서, 수많은 데이터들 속에서 의미를 부여함으로서, 텍스트로 존재하는 데이터가 아니라, 텍스트와 텍스트간의 문맥을 찾아내고, 의미를 찾아낸다는 점에서 온톨로지 모델이 앞으로 얼마나, 어떻게 활용될지 지켜보면 흥미로울 것이라고 생각되네요.
 
결론적으로 말하면, 팔란티어의 온톨로지는 명확하게 정의된 데이터 구조와 관계를 다루는 것이고, 챗GPT는 패턴을 바탕으로 언어를 예측하고 생성한다는 점에서 차이가 있다고 볼 수 있겠네요.




새롭게 탄생한 기술
어떻게 쓰느냐는
인류의 숙제
728x90
반응형