GDPval 벤치마크

2025-12-21 shiningspirit

2025년 8월 7일, OpenAI는 GPT-5를 발표했다. 11월 12일에 GPT-5.1이, 12월 11일에 GPT-5.2가 나왔다. 5.1에서 5.2까지 정확히 29일이다.

GPT-5.1은 GDPval 벤치마크에서 38.8%를 기록했다. GDPval이란 미국 GDP 상위 9개 산업에서 선정한 44개 직업군, 총 1,320개의 실제 업무 과제를 AI에게 수행시키고, 평균 14년 경력의 인간 전문가가 만든 결과물과 비교하는 테스트다. 38.8%는 AI가 인간을 이기거나 비긴 비율이다. 29일 뒤, GPT-5.2가 같은 테스트에서 70.9%를 찍었다. 한 달도 안 되는 사이에 32%포인트가 뛰어올랐다.

이 숫자들을 가만히 들여다보면 묘한 감각이 든다. 투자은행 주니어 애널리스트가 새벽 3시까지 붙잡고 있는 엑셀 모델, 컨설턴트가 클라이언트 미팅 전날 밤새 다듬는 프레젠테이션, 제조업 엔지니어가 일주일에 걸쳐 그리는 공정 다이어그램. 이런 작업들을 인간 전문가는 최소 7시간에서 길게는 수주에 걸쳐 완성한다. 14년을 갈고닦아야 겨우 할 수 있는 일들이다. GPT-5.2는 같은 품질의 결과물을 11배 빠른 속도로, 비용은 1% 미만으로 만들어냈다.

나는 이 현상을 보면서 비디오 대여점 직원들을 떠올렸다. 2000년대 초반만 해도 동네마다 비디오 대여점이 있었다. 신작이 들어오는 날을 외우고, 단골손님 취향을 기억하고, “이거 보셨으면 이것도 좋아하실 거예요”라고 추천하던 사람들. 그들의 전문성은 수년간의 경험에서 나왔다. 그런데 넷플릭스 알고리즘이 등장하자 그 모든 것이 무의미해졌다. 한국에서 비디오 대여점은 2010년대 초반에 사실상 멸종했다. 전환에 걸린 시간은 10년이 채 되지 않았다.

은행 창구 직원도 마찬가지다. ATM이 나오고, 인터넷 뱅킹이 생기고, 이제는 앱으로 모든 걸 처리한다. 2010년 한국 은행권 직원 수는 약 11만 명이었는데, 2024년3월에는 6만2000명 수준으로 떨어졌다. 기술이 일자리를 대체하는 속도는 해가 갈수록 빨라지고 있다.

그런데 지금 벌어지는 일은 차원이 다르다. 비디오 대여점 직원이나 은행 창구 직원은 “단순 반복 업무”로 분류됐다. 그래서 대체되는 게 어느 정도 예견됐다. 하지만 지금 AI가 70.9%의 승률로 이기고 있는 상대는 14년 경력의 전문가들이다. 금융 모델링, 전략 보고서, 공정 설계. 이런 건 “고급 지식 노동”이라고 불리던 영역이다. 대학을 나오고, 대학원을 나오고, 10년 넘게 현장에서 굴러야 겨우 할 수 있는 일들이었다.

문제는 속도다. 비디오 대여점이 사라지는 데 10년이 걸렸다. 은행 창구 직원이 3만 명 줄어드는 데 13년이 걸렸다. 그런데 GPT-5.1에서 5.2로의 도약은 29일 만에 일어났다. 38.8%에서 70.9%로. 인간 전문가의 영역이 한 달 만에 32%포인트씩 침식당하고 있다.

물론 AI가 아직 못하는 영역도 있다. 슬라이드의 미학적 배치, 클라이언트와의 모호한 협상, 의료 진단이나 법적 판단처럼 실수의 대가가 치명적인 일들. 전체의 약 29%다. 사람들은 이 29%에서 희망을 찾으려 한다. “창의성은 대체 불가능하다”, “인간만의 감성이 있다”, “복잡한 판단은 AI가 못 한다.”

그런데 5.1에서 5.2 사이에 일어난 일도 그런 류의 희망을 깨는 과정이었다. 38.8%일 때도 사람들은 “그래도 60%는 인간이 낫다”고 했다. 29일 뒤 그 60%의 절반이 무너졌다. 지금 남은 29%가 얼마나 버틸 수 있을까.

Claude는 주로 기업에게 서비스하는데, 이 업체의 발전을 보면, 대략 예상이 가능하다. 매년 수익이 3배씩 증가한다. 그만큼 대체 효과가 크다는 이야기이다. 3배의 성장을 이어가고 있다는 것.

지금 20대 후반에서 30대 초반, 막 “주니어”를 벗어나 “시니어”로 진입하려는 지식 노동자들이 가장 미묘한 위치에 있다. 이들은 10년 가까이 쌓아온 전문성이 있지만, 그 전문성이 정확히 AI가 가장 잘 대체하는 영역과 겹친다. 금융 분석, 컨설팅 리서치, 기술 문서 작성. 바로 GDPval 벤치마크가 측정하는 그 영역들이다. 반면 이제 막 사회에 진입하는 이들은 처음부터 AI와 협업하는 방식을 익힐 수 있다. 역설적으로, 경력이 짧을수록 적응이 쉬울 수 있다. 그렇지만, 그 기회를 얻는것이 어려워지고 있다.

도가에서는 “무용지용”(無用之用)이라는 말을 한다. 쓸모없음의 쓸모. 장자는 커다란 나무가 쓸모없기 때문에 베어지지 않고 천수를 누린다고 했다. 지금 AI가 대체하는 영역은 모두 “명확한 쓸모”가 있는 일들이다. 정답이 있고, 측정이 가능하고, 효율로 환산할 수 있는 일들. 그렇다면 AI 시대에 살아남는 것은 오히려 “쓸모를 명확히 정의할 수 없는” 영역일지도 모른다. 관계, 신뢰, 맥락, 모호함을 다루는 능력. 숫자로 환산할 수 없는 것들.

다만 이것도 확신할 수는 없다. 29일 전에는 불가능해 보였던 일이 오늘은 당연해지는 시대다. 비디오 대여점 직원들도 “추천은 사람이 해야지”라고 생각했을 것이다. 은행 창구 직원들도 “복잡한 상담은 기계가 못해”라고 믿었을 것이다. 그들의 믿음이 틀렸다는 걸 증명하는 데 10년이 걸렸다. 지금은 29일이면 충분하다.

불안감을 자극하고자 하는 것이 아니다. 세… 즉 흐름을 따라야 한다는 이야기를 하고 싶은 거다.

Shining Spirit

Shining Spirit

GDPval 벤치마크

이것이 좋아요:

관련

댓글에 인색하지 마세요응답 취소

장바구니 (항목: 0)

이 글 공유하기:

이것이 좋아요:

관련

관심 상품

AI 시대의 경제적 영향과 사회적 과제

Ai 시대의 생존 전략

AI가 갈라놓는 두 개의 선 – 중국 노동시장과 프론티어 모델 양극화

댓글에 인색하지 마세요응답 취소