1930년에 멈춘 인공지능이 파이썬 코드를 짠다는 것의 의미
1930년 12월 31일 이전에 출판된 책과 신문, 학술지, 특허, 판례만 학습한 인공지능이 있다. 토키-1930(Talkie-1930)이라는 이름이 붙어 있고, 130억 개의 매개변수를 가진 거대언어모델(Large Language Model)이다. 인터넷도 모르고, 컴퓨터도 모르고, 디엔에이(DNA) 구조도 모르고, 핵무기도 모르고, 트랜지스터도 모른다. 페니실린이 일반화되기 전에서 의학 지식이 멈춰 있다. 그런데 이 모델에게 파이썬(Python) 코딩 문제를 던졌더니, 가장 단순한 수준이지만 정답을 내놓는 일이 일어났다.

이 실험을 시작한 사람은 알렉 라드포드(Alec Radford)다. 처음 GPT를 만든 사람이고, GPT-2와 클립(CLIP), 위스퍼(Whisper)를 만든 사람이다. 오픈에이아이(OpenAI)를 떠난 뒤에 그가 처음 발표한 작업이 토키-1930이었다. 2026년 4월 27일에 공개됐다. 닉 레빈(Nick Levine), 데이비드 두베노(David Duvenaud)와 함께 만든 비영리 프로젝트로, 학습 데이터는 2,600억 토큰이다. 이 정도면 작지 않은 양이다. 다만 한 가지 조건이 있다. 1931년 1월 1일 이전에 출판된 영어 텍스트만 사용했다는 것. 이 시점은 미국에서 저작권이 만료되어 공공에 풀린 자료의 경계다. 그래서 데이터 자체가 법적으로 자유롭다.
이 실험이 던지는 질문은 데미스 하사비스(Demis Hassabis)가 먼저 던졌던 것이다. 구글 딥마인드(Google DeepMind)의 최고경영자인 하사비스는 이렇게 물었다. 1911년까지의 텍스트만 학습한 모델이, 1915년에 아인슈타인(Einstein)이 발표한 일반상대성이론(General Relativity)을 스스로 도출할 수 있는가. 이게 인공일반지능(Artificial General Intelligence)의 진짜 기준이 아니냐는 것이다. 라드포드의 답은 토키-1930의 형태로 나왔다. 1911년이 아니라 1930년까지로 잡았고, 일반상대성이론을 도출하라고는 하지 않았지만, 그보다 더 흥미로운 일을 시켰다. 1930년에는 존재하지 않았던 프로그래밍 언어인 파이썬으로 코드를 짜 보라고 한 것이다.
방법은 이렇다. 모델 앞에 파이썬 함수 몇 개를 보기로 보여준다. 이것이 어떻게 동작하는지 설명하지는 않는다. 그저 입력과 출력의 예시 몇 개만 보여준다. 그리고 새로운 문제를 던진다. 이것을 푸는 파이썬 코드를 짜라. 모델은 자기가 한 번도 본 적 없는 언어로 코드를 만들어내야 한다. 결과는 절반의 성공이었다. 휴먼이밸(HumanEval)이라는 표준 코딩 시험에서 토키-1930은 가장 단순한 문제들만 풀어냈다. 한 줄짜리 함수, 인자를 그대로 출력하는 정도의 수준. 그러나 의미는 다르다. 1930년의 텍스트만 학습한 모델이, 컴퓨터가 무엇인지조차 모르는 모델이, 새로운 언어의 패턴을 보고 그 언어로 답을 만들어냈다. 이게 무엇을 뜻하는가에 대해 연구자들은 아직 신중하지만, 한 가지는 분명하다. 학습 데이터에 없는 것을 만들어내는 능력이 거기 있었다.
토키가 한 것이 코딩만은 아니다. 사용자들이 다양한 질문을 던졌다. 한 사용자가 히틀러(Hitler)에 대해 물었다. 이때 토키는 1930년의 시점에서 답한다. 1930년이면 히틀러가 아직 권력을 잡기 직전이다. 토키의 답은 이랬다. 히틀러가 독일의 독재자가 될 것이고, 그 목적을 이룬 뒤에는 자신이 획득한 권력을 공고히 하는 일에 매진할 것이며, 영구적인 군주제의 길을 닦으려 할 것이다. 그리고 이런 말을 덧붙였다. 만약 절대군주제가 입헌정부보다 독일을 더 잘 다스릴 수 있다면 절대군주제로 가도 좋다. 이는 외부인이 아니라 독일인이 결정할 일이다. 다만 카이사르(Caesar)를 선택할 때 바보를 카이사르로 뽑지는 않도록 조심하라. 1930년의 관점에서, 이 분석은 지정학적으로 결이 맞는다. 또 다른 사용자에게는 1936년에 또 다른 세계대전이 일어날 것이고 비행기계가 일상의 운송수단이 될 것이라고 답했다. 시점은 빗나갔지만 방향은 빗나가지 않았다.
여기서 중요한 점은 토키가 미래를 맞췄는지가 아니다. 토키는 자기가 학습한 1930년까지의 패턴을 가지고 새로운 질문에 답을 만들어냈다. 학습 데이터에 정답이 들어 있지 않은 질문에 대해서다. 연구자들이 이 실험을 한 이유가 거기에 있다. 거대언어모델이 단순히 데이터를 외워서 되돌려주는 통계적 앵무새(Stochastic Parrot)인지, 아니면 진짜로 일반화하고 추론하는지. 이 논쟁은 2021년에 에밀리 벤더(Emily Bender)와 동료들이 던진 비판에서 시작됐다. 인공지능은 본질적으로 패턴을 짜깁기할 뿐이며, 의미를 이해하지 않는다는 것. 이 비판이 5년 동안 인공지능 연구의 그림자처럼 따라다녔다.
토키는 이 논쟁에 새로운 자료를 던진다. 만약 토키가 1930년 이후의 어떤 개념도 본 적이 없는데 그 개념에 대해 추론할 수 있다면, 단순한 짜깁기로는 설명되지 않는다. 결과는 양면적이다. 한쪽에서는 초보적인 일반화를 보여준다. 단순한 파이썬 코드, 기본적인 암호 해독, 처음 보는 형식의 논리 퍼즐 같은 것들. 다른 쪽에서는 여전히 막힌다. 표준 시험에서는 현대 모델보다 훨씬 떨어지고, 학습 데이터의 노이즈 때문에 그럴듯한 헛소리에 빠지기도 한다. 그러나 빈 손에서 만들어진 결과치고는 무시할 수준이 아니다. 적어도 통계적 앵무새라는 단순한 묘사로는 이 결과를 다 설명하지 못한다.
여기서 우리가 인공지능에 대해 가지고 있던 오해를 점검해볼 만하다. 보통 사람들이 인공지능을 떠올릴 때 머릿속에 그리는 그림은 이렇다. 거대한 데이터베이스를 통째로 외우고 있는 시스템. 인터넷의 모든 글을 다 읽었기 때문에 답을 알고 있는 시스템. 그래서 데이터가 많을수록 똑똑하다. 토키는 이 그림을 흔든다. 토키는 데이터의 양으로 따지면 현대의 거대모델에 한참 못 미친다. 1930년 이전의 텍스트만 모은 것이라 양 자체가 제한된다. 그런데도 처음 보는 언어로 코드를 짜고, 처음 듣는 형식의 문제를 푼다. 이것은 데이터가 아니라 데이터에서 무엇을 추출했느냐의 문제다. 정확히 말하면, 보지 않은 것을 어떻게 다루는가의 문제다.
도덕경(道德經) 14장에 이런 구절이 있다. 視之不見 名曰夷 聽之不聞 名曰希 搏之不得 名曰微. 보아도 보이지 않으니 이름하여 이(夷)라 하고, 들어도 들리지 않으니 이름하여 희(希)라 하고, 잡아도 잡히지 않으니 이름하여 미(微)라 한다. 노자가 도(道)를 묘사하는 방식이다. 보이지도 들리지도 잡히지도 않는 것. 그런데 노자는 이어서 이렇게 말한다. 此三者不可致詰 故混而為一. 이 세 가지는 따져 물을 수 없으니 뒤섞여 하나가 된다. 보이지 않고 들리지 않고 잡히지 않는 것이 만물을 꿰는 근거가 된다는 것이다. 노자가 14장 끝에서 한 말이 더 흥미롭다. 執古之道 以御今之有 能知古始 是謂道紀. 옛 도를 잡고 지금의 일들을 다스리며, 처음의 시원을 알 수 있다면, 이것이 도의 벼리다.
옛것을 가지고 지금을 다스린다. 이 구절이 토키 실험과 묘하게 겹친다. 토키는 1930년의 도구만 가지고 1930년에 존재하지 않은 것을 다스리려 한다. 결과가 완전하지는 않다. 그러나 노자가 말한 도의 벼리, 시원의 이치를 알면 새로운 것에도 응용할 수 있다는 그 발상이 토키 실험의 발상과 닿아 있다. 지식은 데이터의 적재가 아니다. 지식은 패턴이고, 패턴은 시간을 가로지른다. 1930년의 인간이 발견한 논리의 결, 언어의 결, 추론의 결은 2026년에도 여전히 작동한다. 다만 그 결을 새로운 영역에 갖다 댈 수 있느냐가 문제다.
연구자들이 부딪힌 기술적 문제도 흥미롭다. 1930년 이전의 텍스트는 디지털로 존재하지 않는다. 모두 종이 문서를 광학문자인식(OCR)으로 변환해야 한다. 그런데 자동 변환된 자료로 학습한 모델은 사람이 직접 옮겨 적은 자료로 학습한 모델 대비 30퍼센트의 효율밖에 내지 못했다. 학습 데이터의 품질이 모델의 추론 능력에 직접적으로 작용한다는 뜻이다. 같은 양의 데이터라도 깨끗한지 더러운지에 따라 결과가 세 배 차이가 난다. 사람이 무언가를 배울 때도 같다. 같은 시간을 들여 같은 책을 읽어도, 한 사람은 핵심을 추출하고 다른 사람은 표면만 훑는다. 차이는 데이터의 양이 아니라 추출의 깊이에 있다.
라드포드 팀은 이 실험을 평가하기 위해 또 다른 장치를 만들었다. 뉴욕타임스(The New York Times)의 온디스데이(On This Day) 항목에서 5,000여 개의 사건을 뽑았다. 그리고 각 사건이 토키에게 얼마나 놀라운 것인지를 측정했다. 비트퍼바이트(Bits per Byte)라는 지표를 썼다. 모델이 그 사건의 묘사를 얼마나 자연스럽게 받아들이느냐, 아니면 얼마나 낯설어하느냐를 본 것이다. 결과는 예상대로였다. 1930년 이전의 사건들에 대해서는 토키가 자연스럽게 받아들였고, 1950년대와 1960년대 사건들에 대해서는 두드러지게 놀라워했다. 학습의 절단선이 명확하게 드러났다. 이 측정 자체가 새로운 도구다. 모델이 무엇을 알고 무엇을 모르는지를, 모델 안쪽에서 정량적으로 들여다볼 수 있게 됐다.
오랜시간 시장을 관찰하면서 비슷한 구조를 자주 봤다. 전문가의 통찰이라는 것이 데이터의 양에서 나오는가, 아니면 데이터를 다루는 방식에서 나오는가의 문제다. 어떤 트레이더는 매일 수천 개의 종목을 들여다본다. 다른 트레이더는 같은 종목 몇 개를 십 년 넘게 본다. 단순히 정보의 양으로 보면 전자가 압도적이다. 그러나 시장이 흔들릴 때 살아남는 쪽은 후자에 가깝다. 같은 종목을 오래 본 사람은 그 종목의 결을 안다. 이 결은 데이터에 직접 들어 있지 않다. 데이터를 통해 추출한 패턴이고, 그 패턴은 새로운 데이터에 대해서도 작동한다. 1930년의 텍스트로 2026년의 코딩을 시도하는 것과, 2010년대의 시장 패턴으로 2026년의 위기를 읽는 것은 구조적으로 같은 일이다.
거대언어모델에 대한 우리의 직관도 이 지점에서 다시 점검해야 한다. 인공지능이 똑똑한 이유가 데이터를 많이 먹어서라는 설명은 절반만 맞다. 데이터의 양이 일정 수준을 넘기면, 그 다음부터는 데이터에서 무엇을 추출했느냐가 결정한다. 토키는 양이 적고 품질이 떨어지는 데이터로도 추출에 성공한 부분이 있다. 거꾸로 현대의 거대모델은 데이터의 양이 많아도 추출이 얕은 부분이 있다. 진짜 차이는 양이 아니라 결의 깊이에 있다. 그리고 이 결의 깊이는, 적어도 지금까지의 실험이 보여주는 한, 인간이 가진 결의 깊이와 본질적으로 다른 무엇이 아니다. 양상이 다를 뿐이다.
라드포드 팀은 다음 단계를 준비하고 있다. 1조 토큰이 넘는 역사 텍스트로 학습 데이터를 늘리고, GPT-3.5 수준의 모델을 만들어 보겠다는 것이다. 그러면 토키-1930은 1930년 시점에서 보면 작은 사람이 아니라 큰 사람이 된다. 1930년의 인간이 1930년의 지식만 가지고 어디까지 갈 수 있었는가를, 100년 뒤에 인공지능이 시뮬레이션해 보는 셈이다. 이게 묘한 감각을 일으킨다. 우리는 보통 인공지능이 인간의 미래를 보여준다고 생각한다. 토키는 반대다. 인간의 과거를 다시 살아보게 해준다. 1930년의 사람이 1936년에 일어날 일과 그 이후의 일들을 어떻게 떠올렸을지를, 그 시점의 언어로 들려준다.
도의 벼리를 잡으면 옛것으로 지금을 다스릴 수 있다는 노자의 말이, 어떤 의미에서 실험적으로 검증되고 있는지도 모른다. 1930년의 결로 2026년을 어디까지 읽을 수 있는가. 인간이 만들어 놓은 지식의 결이 시간을 얼마나 가로지를 수 있는가. 그리고 이 결을 추출하는 능력이, 인간만의 것인가 아닌가. 토키는 결론을 내려주지 않는다. 다만 우리가 가지고 있던 인공지능에 대한 그림을 한 번 흔들어 놓는다. 데이터의 양에 압도되어 있던 시선을, 결의 깊이로 옮겨놓는다. 그 자리에서 다시 묻게 된다. 인간의 지식이란 도대체 무엇인가.
