물리 세계로 향하는 프론티어 AI

Frontier Systems for the Physical World

May 17, 2026

2026년 현재 AI의 중심은 언어와 코드다. LLM의 스케일링 법칙은 이미 잘 알려져 있고, 데이터와 컴퓨팅, 알고리즘이 서로를 밀어 올리는 선순환도 잘 작동하고 있다. 성능이 조금만 올라가도 곧장 돈으로 이어진다. 이 패러다임에 자본과 관심이 쏠리는 건 당연한 일이다.

그 옆에서 조용히 힘을 키우는 분야들이 있다. VLA, WAM 같은 범용 로보틱스 모델, AI 과학자를 위한 물리 추론, BCI와 뉴로테크 같은 새로운 인터페이스 등이다. 이 분야들은 기술만 발전하는 게 아니라, 인재와 자본, 창업자까지 몰리기 시작했다.

AI를 물리 세계로 확장하는 데 필요한 기술 조각들이 동시에 무르익고 있고, 지난 18개월의 속도를 보면 이 분야들 역시 머지않아 본격적인 스케일링 단계에 들어설 수 있다.

기술 패러다임 안에서 가장 큰 기회는 보통 이런 자리에 있다. 주류와 같은 스케일링 원리가 통하면서도, 주류에서 딱 한 발짝 떨어진 곳. 기존 인프라와 연구의 추진력을 물려받을 만큼 가깝지만, 쉽게 베끼기엔 충분히 먼 자리다. 이 거리가 두 가지를 만든다. 하나는 빠른 추격자를 막아주는 해자, 다른 하나는 쉬운 길이 아직 선점되지 않았기 때문에 더 넓고 덜 탐험된 문제 영역이다. 그래서 예상 밖의 능력이 튀어나올 가능성도 높다.

오늘날 이 조건에 맞는 분야가 세 개 있다. 로봇 학습, 자율 과학, 특히 재료과학과 생명과학, 그리고 새로운 인간-기계 인터페이스다. 여기에는 뇌-컴퓨터 인터페이스, 무성 음성, 신경 웨어러블, 디지털 후각 같은 새로운 감각 방식도 포함된다. 이 셋은 완전히 따로 노는 분야가 아니다. 물리 세계를 위한 프론티어 시스템이라는 같은 흐름 안에 있다.

물리 역학의 학습된 표현(learned representations of physical dynamics), 신체화된 행동 아키텍처(architectures for embodied action), 시뮬레이션과 합성 데이터 인프라(simulation and synthetic data infrastructure), 넓어지는 감각 영역(expanding sensory manifold), 폐루프 에이전트 오케스트레이션(closed-loop agentic orchestration) 같은 기술 기반을 공유한다. 서로를 강화하면서 도메인을 넘나드는 복리 효과를 만든다. 그리고 모델 규모, 물리적 기반, 새로운 데이터 형식이 만났을 때 질적으로 새로운 AI 능력이 나올 가능성이 가장 높은 영역이다.

이 에세이는 이 시스템들의 기초 기술을 살펴보고, 왜 이 세 분야가 프론티어 기회인지 따져본다. 그리고 이들의 상호 강화가 AI를 물리 세계로 확장하는 구조적 플라이휠이 된다고 주장한다.

기초 기술

구체적인 응용 분야를 보기 전에, 이 프론티어 시스템들을 가능하게 하는 공통 기술 기반을 이해할 필요가 있다. 프론티어 AI가 물리 세계로 나아가는 걸 떠받치는 핵심 기초 기술이 다섯 가지 있다. 이 기술들은 특정 응용 분야에만 쓰이는 게 아니다. AI를 물리 세계로 확장하는 시스템을 만들 수 있게 해주는 빌딩 블록이다. 이것들이 동시에 무르익고 있다는 게 지금이 특별한 이유다.

Learned Representations of Physical Dynamics

가장 근본적인 기초 기술은 물리 세계가 어떻게 작동하는지를 압축된 범용 표현으로 학습하는 능력이다. 물체가 어떻게 움직이고, 변형되고, 부딪히고, 힘에 반응하는지. 이게 없으면 모든 물리 세계 AI가 자기 분야의 물리를 처음부터 배워야 하는데, 그 비용은 감당이 안 된다.

여러 아키텍처가 서로 다른 방향에서 같은 능력으로 수렴하고 있다. Vision-Language-Action 모델, 즉 VLA는 위에서부터 접근한다. 이미 물체, 공간 관계, 언어를 잘 이해하고 있는 사전학습된 비전-언어 모델을 가져와서, 모터 명령을 내보내는 액션 디코더를 붙인다. 핵심 아이디어는 세계를 보고 이해하는 법을 배우는 막대한 비용을 인터넷 규모의 이미지-텍스트 사전학습으로 나눠 감당할 수 있다는 것이다. Physical Intelligence의 π₀, Google DeepMind의 Gemini Robotics, NVIDIA의 GR00T N1 같은 모델들이 이 구조를 점점 더 큰 규모에서 보여줬다.

World Action Model, 즉 WAM은 아래에서부터 접근한다. 인터넷 규모의 비디오로 사전학습된 비디오 디퓨전 트랜스포머를 기반으로, 물체가 떨어지고 가려지고 힘 아래에서 상호작용하는 방식에 대한 풍부한 사전지식을 물려받아 액션 생성과 결합한다. NVIDIA의 DreamZero는 완전히 새로운 태스크와 환경에 대한 제로샷 일반화를 시연했고, 소량의 적응 데이터만으로 인간 비디오 시연에서 다른 로봇 몸체로의 전이까지 가능하게 했다.

세 번째 경로도 있다. 이 분야가 어디로 가는지 이해하는 데 가장 시사적일 수 있는 접근이다. 사전학습된 VLM도, 비디오 디퓨전 백본도 아예 쓰지 않는 방식이다. Generalist의 GEN-1은 50만 시간 이상의 실세계 물리적 상호작용 데이터로 처음부터 학습한 네이티브 신체화 파운데이션 모델이다. 이 데이터는 주로 일상적인 조작 작업을 하는 사람에게 저가 웨어러블 기기를 붙여서 모았다. 표준적 의미의 VLA도 아니고, 비전-언어 백본을 파인튜닝하는 방식이 아니기 때문이다. WAM도 아니다. 인터넷 이미지나 텍스트나 비디오가 아니라 인간이 물체를 만지는 통계로부터 역학의 표현을 배우도록 처음부터 설계된, 물리적 상호작용을 위한 파운데이션 모델이다.

World Labs 같은 회사가 만들고 있는 공간 지능도 이 기초 기술에 중요하다. VLA, WAM, 네이티브 신체화 모델이 공통으로 가진 표현의 빈틈을 메우기 때문이다. 이 모델들 중 어느 것도 자기가 작동하는 장면의 3차원 구조를 명시적으로 모델링하지 않는다. VLA는 이미지-텍스트 사전학습에서 2D 시각 특징을 물려받는다. WAM은 3D 현실의 2D 투영인 비디오에서 역학을 배운다. 웨어러블 센서 데이터로 학습하는 모델은 힘과 운동은 잡지만 장면의 기하학은 못 잡는다. 공간 지능 모델은 물리적 환경의 전체 3D 구조, 즉 기하학, 조명, 가림, 물체 관계, 공간 배치를 재구성하고 생성하고 추론하는 법을 배워 이 빈틈을 채울 수 있다.

접근법 간의 수렴이 핵심이다. 표현을 VLM에서 물려받든, 비디오 공동학습으로 배우든, 물리적 상호작용 데이터에서 네이티브로 만들든, 밑바탕의 기초 기술은 같다. 물리 세계가 어떻게 작동하는지에 대한 압축되고 전이 가능한 모델이다. 이 표현을 위한 데이터 플라이휠은 거대하고, 대부분 아직 쓰이지 않은 상태다. 인터넷 비디오와 로봇 궤적뿐 아니라, 웨어러블 기기가 이제 막 대규모로 포착하기 시작한 방대한 인간의 물리적 경험까지 포괄한다. 같은 표현이 수건 접는 법을 배우는 로봇, 반응 결과를 예측하는 자율주행 실험실, 운동 피질의 잡기 계획을 해석하는 신경 디코더에 모두 쓰인다.

Architectures for Embodied Action

물리의 표현은 필요하지만 충분하지 않다. 이해를 신뢰할 수 있는 물리적 행동으로 바꾸려면 여러 문제를 동시에 푸는 아키텍처가 필요하다. 고수준 의도를 연속적 모터 명령으로 변환하기, 긴 행동 구간에서 일관성 유지하기, 실시간 지연 제약 안에서 작동하기, 경험으로 나아지기.

이중 시스템 계층 아키텍처가 표준으로 수렴했다. 장면 이해와 태스크 추론을 담당하는 느리고 강력한 비전-언어 모델(시스템 2)과, 실시간 제어를 담당하는 빠르고 가벼운 비주모터 정책(시스템 1)을 분리하는 구조다. GR00T N1, Gemini Robotics, Figure의 Helix 모두 이 방식의 변형을 쓴다. 대형 모델이 주는 풍부한 추론과 물리적 태스크가 요구하는 밀리초 단위 제어 주파수 사이의 근본적 긴장을 해결한다. 한편 Generalist는 사고와 행동을 동시에 수행하는 하모닉 추론이라는 다른 접근을 취한다.

액션 생성 메커니즘 자체도 빠르게 진화하고 있다. π₀가 개척한 플로우 매칭과 디퓨전 기반 액션 헤드가 매끄럽고 고빈도인 연속 액션을 만드는 주류 방식으로 자리 잡았다. 언어 모델에서 빌려온 이산 토큰화 방식을 대체하고 있다. 이 방법은 액션 생성을 이미지 합성과 비슷한 디노이징 과정으로 다뤄서, 자기회귀 토큰 예측보다 물리적으로 더 매끄럽고 누적 오류에 더 강건한 궤적을 만든다.

하지만 가장 중요한 아키텍처 발전은 사전학습된 VLA에 강화학습을 붙이는 것일 수 있다. 시연으로 학습한 파운데이션 모델이 자기 스스로 연습하면서 나아진다는 아이디어. 사람이 반복과 자기교정으로 기술을 다듬는 것과 같다. Physical Intelligence의 π₀.₆ 작업이 이 원칙의 대규모 시연을 가장 명확하게 보여준다. 그들의 방법인 RECAP(RL with Experience and Corrections via Advantage-conditioned Policies)은 순수 모방학습이 풀 수 없는 문제를 다룬다. 긴 태스크에서 “어디가 잘못됐는지”를 짚어내는 것이다. 로봇이 에스프레소 머신의 포타필터를 살짝 잘못된 각도로 잡으면, 그 실패는 몇 단계 뒤 삽입이 실패할 때야 드러날 수 있다. 모방학습은 실패를 앞선 잡기 동작에 돌릴 메커니즘이 없다. 강화학습에는 있다. RECAP은 어떤 중간 상태에서든 성공 확률을 추정하는 가치 함수를 학습한 뒤, VLA가 높은 이점의 액션을 선택하도록 조건을 건다. 중요한 건, 시연 데이터, 자율 경험, 실행 중 전문가가 텔레오퍼레이션으로 교정한 데이터 등 이질적인 데이터를 하나의 학습 파이프라인에 통합한다는 점이다.

결과는 고무적이다. π₀.₆는 실제 가정에서 50가지 새로운 옷 종류를 접고, 상자를 안정적으로 조립하고, 전문 머신으로 에스프레소를 만드는데, 사람 개입 없이 몇 시간 연속 작동한다. 가장 어려운 태스크에서 RECAP은 모방 전용 베이스라인 대비 처리량을 두 배 이상 늘리고 실패율을 절반 이상 줄인다. RL 후학습이 모방과는 질적으로 다른 행동을 만들어낸다는 것도 보여준다. 더 매끄러운 복구, 더 효율적인 잡기 전략, 시연 데이터에는 없었던 적응적 오류 교정 같은 것들.

이런 성과는 LLM을 GPT-2에서 GPT-4로 이끈 것과 같은 컴퓨트 스케일링 역학이 신체화 도메인에서도 작동하기 시작했음을 시사한다. 다만 곡선의 더 이른 지점에 있고, 연속적이고 고차원적이며 실세계 물리라는 가차 없는 제약을 받는 액션 공간을 다룬다는 차이가 있다.

Simulation and Synthetic Data as Scaling Infrastructure

언어에서 데이터 문제는 인터넷이 해결했다. 수조 개의 자연 발생 텍스트 토큰이 공짜로 널려 있었다. 물리 세계에서는 데이터 문제가 몇 자릿수나 더 어렵다. 이건 이미 잘 알려진 사실이고, 물리 세계용 데이터 벤더를 만들겠다는 스타트업이 급증하는 게 그 증거다. 실세계 로봇 궤적은 모으는 데 돈이 많이 들고, 규모를 키우면 위험하고, 다양성도 제한적이다. 언어 모델은 10억 건의 대화에서 배울 수 있지만, 로봇은 10억 번의 물리적 상호작용을 (아직은) 할 수 없다.

시뮬레이션과 합성 데이터 생성은 이 제약을 푸는 인프라 레이어다. 이것들이 성숙해진 게 물리 세계 AI가 5년 전이 아니라 지금 가속하는 핵심 이유 중 하나다.

현대 시뮬레이션 스택은 물리 기반 시뮬레이션 엔진, 레이 트레이싱을 통한 포토리얼 렌더링, 프로시저럴 환경 생성, 그리고 시뮬레이션 입력에서 포토리얼 비디오를 만들어 sim-to-real 갭을 메우는 월드 파운데이션 모델을 결합한다. 파이프라인은 스마트폰만으로 실제 환경을 신경 재구성하는 것에서 시작해, 물리적으로 정확한 3D 에셋을 배치하고, 자동 어노테이션이 포함된 대규모 합성 데이터 생성으로 이어진다.

시뮬레이션 스택 개선의 의미는 직관적이다. 물리 세계 AI를 떠받치는 경제적 전제를 바꾸는 것이다. 물리 AI의 병목이 실제 데이터 수집에서 다양한 가상 환경 설계로 옮겨가면, 비용 곡선이 무너진다. 시뮬레이션은 사람의 노동이나 물리적 하드웨어가 아니라 컴퓨트에 비례해서 확장된다. 인터넷 규모의 텍스트 데이터가 언어 모델 학습의 경제학을 바꾼 것과 같은 방식으로, 물리 세계 AI 학습의 경제학을 바꾼다. 시뮬레이션 인프라에 대한 투자가 전체 생태계에 비대칭적으로 큰 레버리지를 갖는다는 뜻이다.

시뮬레이션은 로보틱스만의 기초 기술이 아니다. 같은 인프라가 자율 과학(실험 장비의 디지털 트윈, 가설 사전 검증을 위한 시뮬레이션 반응 환경), 새로운 인터페이스(BCI 디코더 학습을 위한 시뮬레이션 신경 환경, 새로운 센서 교정을 위한 합성 감각 데이터), 그리고 AI가 물리 세계와 만나는 다른 모든 분야에도 쓰인다. 시뮬레이션은 물리 세계 AI를 위한 범용 데이터 엔진이다.

Expanding the Sensory Manifold

물리 세계는 시각과 언어보다 훨씬 풍부한 신호로 소통한다. 촉각은 재료 특성, 그립 안정성, 접촉 기하학에 대한 정보를 전달하는데, 카메라로는 보이지 않는 것들이다. 신경 신호는 운동 의도, 인지 상태, 지각 경험을 현존하는 어떤 인간-컴퓨터 인터페이스보다 압도적으로 높은 대역폭으로 인코딩한다. 성대 아래 근육 활동은 소리가 나기 전에 이미 발화 의도를 담고 있다. 네 번째 기초 기술은 이전에는 접근할 수 없었던 이런 감각 양식에 대한 AI의 감각 접근이 빠르게 확장되고 있다는 것이다. 연구만이 아니라, 이 신호들을 소비자 규모로 포착하고 처리하는 기기, 소프트웨어, 인프라를 만드는 생태계가 이를 밀고 있다.

이 확장의 가장 눈에 띄는 지표는 새로운 기기 카테고리의 등장이다. AR 기기는 최근 몇 년간 사용자 경험과 폼팩터가 크게 개선됐고, 소비자와 산업 양쪽 모두를 위한 애플리케이션을 만드는 회사들이 있다. 보이스 퍼스트 AI 웨어러블은 사용자를 물리 세계로 따라가며 언어 기반 AI에 더 포괄적인 맥락을 제공한다. 장기적으로는 신경 인터페이스가 더 포괄적인 상호작용 양식을 열 수도 있다. AI는 컴퓨팅의 전환점을 만들었고, 인간이 컴퓨터와 상호작용하는 방식을 극적으로 발전시킬 기회를 열었다. Sesame 같은 회사가 그걸 위한 새로운 양식과 기기를 만들고 있다.

음성 같은 지배적 양식은 새로운 상호작용 수단에 순풍을 만든다. Wispr Flow 같은 제품이 음성을 주요 입력 양식으로 밀면서(높은 정보 밀도라는 장점을 살려), 무성 음성 인터페이스를 둘러싼 시장 역학도 더 유리해진다. 무성 음성 기기는 다양한 센서로 혀와 성대의 움직임을 감지해 소리 없이 발화를 해독하는데, 컴퓨터 및 AI와 상호작용하는 데 있어 음성보다도 더 높은 정보 밀도를 가진 양식이다.

침습적이든 비침습적이든, 뇌-컴퓨터 인터페이스는 더 깊은 프론티어를 대표하며 상업 생태계는 계속 전진하고 있다. 여기서의 신호는 임상 검증, 규제 허가, 플랫폼 통합, 기관 자본이 수렴하는 방향으로의 진전이다. 불과 몇 년 전까지 순수 학술 영역이었던 기술 카테고리를 두고 말이다.

촉각 센싱이 신체화 AI 아키텍처에 들어오고 있다. 로봇 학습의 일부 모델들이 촉각을 접근의 핵심 요소로 명시적으로 포함하기 시작했다. 후각 인터페이스도 실제 엔지니어링 산물이 되고 있다. 밀리초 응답 시간의 소형 냄새 발생기를 사용한 웨어러블 디스플레이가 혼합현실 응용에서 시연됐고, 화학 공정 모니터링을 위해 시각 AI 시스템과 쌍을 이루는 후각 모델이 개발 중이다.

이 모든 발전에 걸친 패턴은 궁극적으로 서로에게 수렴한다는 것이다. AR 안경은 사용자가 물리적 환경과 어떻게 상호작용하는지에 대한 연속적인 시각 및 공간 데이터를 생성한다. EMG 손목밴드는 인간 운동 의도의 통계를 포착한다. 무성 음성 인터페이스는 성대 아래 발성과 언어 출력 사이의 매핑을 포착한다. BCI는 가능한 가장 높은 해상도로 신경 활동을 포착한다. 촉각 센서는 물리적 조작의 접촉 역학을 포착한다. 각각의 새로운 기기 카테고리는 동시에 여러 응용 도메인의 모델을 먹이는 데이터 생성 플랫폼이기도 하다. EMG에서 추출한 운동 의도 데이터로 학습한 로봇은 텔레오퍼레이션만으로 학습한 로봇과는 다른 잡기 전략을 배운다. 성대 아래 명령에 반응하는 실험실 인터페이스는 키보드와는 다른 종류의 과학자-기계 상호작용을 가능하게 한다. 고밀도 BCI 데이터로 학습한 신경 디코더는 다른 어떤 채널로도 접근할 수 없는 운동 계획의 표현을 만들어낸다.

이 기기들의 확산은 프론티어 물리 세계 AI 시스템을 학습시키는 데 쓸 수 있는 데이터 매니폴드의 실효 차원을 넓히고 있다. 그리고 이 확장의 상당 부분이 학술 연구실만이 아니라 자본력 있는 소비자 제품 회사들에 의해 주도되고 있다는 사실은, 데이터 플라이휠이 시장 채택과 함께 확장될 수 있다는 뜻이다.

Closed-Loop Agentic Systems

마지막 기초 기술은 조금 더 아키텍처에 가깝다. 인식, 추론, 행동을 하나로 엮어, 사람이 개입하지 않아도 긴 시간 동안 지속적으로 작동하는 자율 시스템을 만드는 능력이다. 핵심은 단순히 한 번 판단하고 행동하는 것이 아니라, 행동의 결과를 다시 관찰하고, 그 결과를 바탕으로 다음 전략을 수정하는 피드백 루프를 갖추는 것이다.

언어 모델에서 비슷한 변화는 에이전트 시스템의 등장으로 나타났다. 다단계 추론, 도구 사용, 자기 수정 워크플로우가 붙으면서 모델은 단발성 질의응답 기계에서 자율적으로 문제를 푸는 시스템으로 진화했다. 물리 세계에서도 같은 전환이 일어나고 있다. 다만 요구 조건은 훨씬 더 까다롭다. 언어 에이전트가 실수하면 거의 비용 없이 되돌아갈 수 있지만, 물리 에이전트가 시약이 담긴 비커를 떨어뜨리면 그렇게 간단히 되돌릴 수 없다.

물리 세계의 에이전트 시스템은 디지털 에이전트와 세 가지 점에서 다르다. 첫째, 실험 또는 작업 루프 안에 직접 들어가 있어야 한다. 장비의 원시 데이터 스트림, 물리 상태 센서, 액추에이션 프리미티브에 직접 연결되어, 텍스트로 설명된 현실이 아니라 실제 물리 현실에 추론을 고정해야 한다. 둘째, 긴 시간에 걸친 지속성이 필요하다. 매 작업을 독립된 에피소드처럼 처리하는 것이 아니라, 여러 작업 사이에서도 연속성을 유지할 수 있는 메모리, 출처 추적, 안전 모니터링, 복구 행동이 필요하다. 셋째, 결과 기반 적응이 가능해야 한다. 단순히 텍스트 피드백을 보고 전략을 수정하는 것이 아니라, 실제 물리적 결과를 보고 전략을 고쳐야 한다.

이 기초 기술은 개별 능력을 실제로 작동하는 시스템으로 바꾼다. 좋은 월드 모델, 안정적인 행동 아키텍처, 풍부한 센서 스위트가 따로 존재하는 것만으로는 부족하다. 이것들을 하나로 묶어 물리 세계에서 자율적으로 작동하게 만드는 통합 계층이 필요하다. 이 계층이 성숙해야 아래에서 설명할 세 가지 응용 분야도 고립된 연구 시연을 넘어, 실제 세계에 배포 가능한 시스템이 될 수 있다.

세 가지 영역

앞에서 설명한 기초 기술들은 범용적인 enabling layer다. 하지만 이것만으로 가장 중요한 응용이 어디에서 나올지 정해지는 것은 아니다. 물리적 행동, 물리적 측정, 물리적 감각이 필요한 분야는 많다. 단순히 기존 시스템을 개선하는 것과 프론티어 시스템을 가르는 기준은, 모델 성능과 스케일링 인프라가 그 영역 안에서 얼마나 강하게 복리로 작동하느냐다. 성능이 좋아지는 수준을 넘어, 이전에는 불가능했던 질적으로 새로운 능력을 만들어낼 수 있느냐가 중요하다.

로보틱스, AI 기반 과학, 새로운 인간-기계 인터페이스는 이 복리 효과가 가장 강하게 나타나는 세 가지 영역이다. 세 영역은 각각 앞서 말한 기초 기술들을 서로 다른 방식으로 조합한다. 또 각 영역은 지금까지의 한계에 막혀 있었고, 앞에서 다룬 기초 기술들이 그 병목을 풀기 시작하고 있다. 그리고 이 시스템들은 작동하는 과정에서, 다시 그 기초 기술들을 더 좋게 만드는 구조화된 물리 데이터를 만들어낸다. 그 결과 전체 시스템을 더 빠르게 밀어 올리는 피드백 루프가 닫힌다.

이 세 영역만이 주목할 만한 물리적 AI 분야라는 뜻은 아니다. 다만 프론티어 AI 능력과 물리 현실이 가장 밀도 높게 만나는 곳이고, 현재의 언어와 코드 중심 패러다임에서 적당히 떨어져 있어 새로운 능력이 튀어나올 공간이 가장 큰 곳이다. 동시에 기존 AI 역량과도 강하게 연결되어 있어, 그 발전의 혜택을 그대로 받을 수 있는 영역이기도 하다.

Robotics

로보틱스는 이 글의 주장을 가장 문자 그대로 보여주는 영역이다. AI 시스템이 물리 세계를 실시간으로 인식하고, 추론하고, 실제로 행동해야 하는 분야이기 때문이다. 동시에 앞에서 말한 모든 기초 기술을 한꺼번에 가장 강하게 시험하는 영역이기도 하다.

범용 로봇이 수건을 접는 상황을 생각해보자. 먼저 힘이 가해졌을 때 변형 가능한 물체가 어떻게 움직이는지에 대한 학습된 표현이 필요하다. 언어 사전학습만으로는 얻을 수 없는 물리적 사전지식이다. 또 고수준의 지시를 20Hz 이상의 제어 주파수로 이어지는 연속적인 모터 명령으로 바꿀 수 있는 행동 아키텍처가 필요하다. 수백만 개의 실제 수건 접기 시연 데이터가 존재하지 않기 때문에, 시뮬레이션으로 만든 학습 데이터도 필요하다. 미끄러짐을 감지하고 그립 힘을 조절하기 위한 촉각 피드백도 필요하다. 시각만으로는 제대로 잡고 있는지, 곧 놓칠 것인지를 구분하기 어렵기 때문이다. 마지막으로 접기가 잘못됐을 때 이를 감지하고 복구할 수 있는 피드백 루프 기반 컨트롤러가 필요하다. 외운 궤적을 맹목적으로 실행하는 것만으로는 부족하다.

이것이 로보틱스가 단순히 더 나은 도구를 가진 성숙한 엔지니어링 분야가 아니라, 프론티어 시스템인 이유다. 앞서 말한 기초 기술들은 기존 로봇의 능력을 조금 개선하는 데 그치지 않는다. 좁게 통제된 산업 환경 밖에서는 불가능했던 조작, 이동, 상호작용의 범주를 새롭게 열어준다.

최근 몇 년 사이 이 프론티어는 의미 있게 진전됐다. 첫 세대 VLA는 파운데이션 모델이 다양한 작업에서 로봇을 제어할 수 있음을 보여줬다. 아키텍처의 발전은 로봇 시스템 안에서 고수준 추론과 저수준 제어 사이의 간극을 메우기 시작했다. 온디바이스 추론도 점점 가능해지고 있고, 서로 다른 로봇 몸체 간 전이 덕분에 모델은 적은 데이터만으로 완전히 새로운 로봇 플랫폼에도 적응할 수 있게 됐다.

이제 남은 핵심 과제는 대규모 환경에서의 신뢰성이다. 실제 배포를 막는 가장 큰 병목도 여기에 있다. 각 단계의 성공률이 95%라고 해도, 10단계로 이어진 작업 전체의 성공률은 60% 수준에 그친다. 실제 생산 환경은 이보다 훨씬 높은 안정성을 요구한다. 이 지점에서 RL 기반 후학습은 큰 가능성을 갖는다. 로보틱스가 본격적인 스케일링 단계에 들어갔다고 말할 수 있을 만큼의 능력과 견고함으로 나아가는 데 중요한 역할을 할 수 있다.

이 변화는 시장 구조에도 영향을 준다. 수십 년 동안 로보틱스의 가치는 기계 시스템 자체에 쌓였다. 물론 기계 시스템은 여전히 스택의 핵심이다. 하지만 학습된 정책이 점점 표준이 될수록, 가치는 모델, 학습 인프라, 데이터 플라이휠로 이동한다. 동시에 로보틱스는 앞에서 다룬 기초 기술을 다시 강화한다. 실제 세계에서 얻은 모든 궤적은 더 나은 월드 모델을 위한 학습 데이터가 된다. 배포 실패 하나하나는 시뮬레이션이 아직 포괄하지 못한 빈틈을 드러낸다. 새로운 로봇 몸체를 테스트할 때마다 사전학습에 쓸 수 있는 물리적 경험의 다양성도 늘어난다. 로보틱스는 이 기초 기술들을 가장 혹독하게 사용하는 영역이면서, 동시에 그것들을 개선하는 가장 중요한 신호의 원천 중 하나다.

Autonomous Science

로보틱스가 실시간 물리 행동의 요구 조건으로 기초 기술들을 시험하는 영역이라면, 자율 과학은 조금 다른 요구 조건으로 이 기술들을 시험한다. 인과관계가 복잡한 물리 시스템에 대해, 몇 시간에서 며칠에 이르는 시간 단위로 지속적인 다단계 추론을 수행해야 한다. 실험 결과를 해석하고, 맥락화하고, 다음 전략을 수정하는 데 사용해야 하기 때문이다.

AI 기반 과학은 앞서 말한 기초 기술들이 가장 완전하게 결합되는 영역이다. 자율주행 실험실에는 실험 결과를 예측하기 위한 물리·화학 역학의 학습된 표현이 필요하다. 시약을 피펫팅하고, 샘플 위치를 조정하고, 분석 장비를 작동시키기 위한 신체화된 행동도 필요하다. 제한된 장비 시간을 효율적으로 쓰기 위해 후보 실험을 미리 걸러내는 시뮬레이션도 필요하다. 결과를 특성화하기 위해 분광법, 크로마토그래피, 질량분석, 그리고 점점 더 새로운 화학·생물학 센서 같은 확장된 감각도 필요하다. 그리고 그 어떤 영역보다 피드백 루프 기반 자율 시스템이 중요하다. 여러 사이클에 걸친 가설 수립, 실험, 분석, 전략 수정의 흐름을 사람의 개입 없이 유지하고, 출처를 추적하고, 안전을 모니터링하고, 각 사이클에서 드러난 결과를 바탕으로 전략을 조정할 수 있어야 하기 때문이다.

이 기초 기술들을 이만큼 깊게 끌어다 쓰는 영역은 많지 않다. 그래서 자율 과학은 더 나은 소프트웨어를 얹은 실험실 자동화가 아니라, 프론티어 시스템이다. Periodic Labs와 Medra 같은 회사들은 각각 재료과학과 생명과학에서 과학적 추론 능력과, 그 추론을 실제로 테스트할 수 있는 물리적 실행 능력을 결합하고 있다. 이를 통해 과학적 반복 속도를 높이는 동시에, 실험 과정에서 새로운 학습 데이터도 만들어낸다.

이런 시스템의 가치는 꽤 직관적이다. 전통적인 재료 발견은 아이디어에서 상용화까지 몇 년이 걸린다. AI로 가속된 워크플로우는 이 과정을 훨씬 짧게 압축할 수 있다. 이제 병목은 가설 생성에서 제작과 검증으로 옮겨가고 있다. 가설 생성은 파운데이션 모델이 비교적 쉽게 도울 수 있지만, 제작과 검증은 물리 장비, 로봇 실행, 피드백 루프 기반 최적화가 필요하다. 자율주행 실험실은 정확히 이 병목을 풀기 위한 시스템이다.

물리 세계를 위한 여러 시스템 중에서도 자율 과학이 갖는 또 하나의 중요한 특성은 데이터 엔진으로서의 역할이다. 자율주행 실험실이 수행하는 모든 실험은 단순한 과학적 결과만 만들어내지 않는다. 물리 현실에 기반하고, 실험적으로 검증된 학습 신호를 함께 만들어낸다. 특정 조건에서 폴리머가 어떻게 결정화되는지에 대한 측정은 월드 모델이 재료 역학을 이해하는 데 도움이 된다. 검증된 합성 경로는 물리 추론을 위한 학습 데이터가 된다. 잘 특성화된 실패는 에이전트 시스템의 예측이 어디에서 무너지는지 알려준다.

AI 과학자가 실제 실험을 수행해 만들어낸 데이터는 인터넷에서 긁어온 텍스트나 시뮬레이션 결과와 질적으로 다르다. 구조화되어 있고, 인과적이며, 경험적으로 검증되어 있기 때문이다. 물리 추론 모델이 가장 필요로 하지만 다른 곳에서는 얻기 어려운 종류의 데이터다. 자율 과학은 물리 현실을 직접 구조화된 지식으로 바꾸고, 그 지식을 통해 물리 세계 AI 전체 생태계를 개선하는 영역이다.

New Interfaces

로보틱스가 AI를 물리적 행동으로 확장하고, 자율 과학이 AI를 물리적 탐구로 확장한다면, 새로운 인터페이스는 AI를 인간의 지각, 감각 경험, 그리고 신체 신호와 직접 연결한다. 여기에는 AR 글래스와 EMG 손목밴드부터 이식형 뇌-컴퓨터 인터페이스까지 다양한 기기가 포함된다. 이 범주를 하나로 묶는 것은 특정 기술 하나가 아니라, 인간 지능과 AI 시스템 사이의 채널을 더 넓고 다양한 형태로 확장한다는 공통된 기능이다. 그리고 그 과정에서 물리 세계 AI를 만드는 데 직접적으로 유용한 인간-세계 상호작용 데이터를 만들어낸다.

이 영역의 어려움과 잠재력은 모두 기존 패러다임과의 거리에서 나온다. 언어 모델은 이런 감각 양식들을 개념적으로는 알고 있지만, 무성 발화의 움직임 패턴, 후각 수용체 결합의 기하학, EMG 신호의 시간적 역학에 네이티브한 것은 아니다. 이런 신호를 해석하는 표현은 점점 넓어지는 감각 영역에서 새로 학습되어야 한다. 많은 감각 양식에는 인터넷 규모의 사전학습 데이터셋이 존재하지 않는다. 데이터 자체도 인터페이스에서 직접 만들어져야 하는 경우가 많다. 그래서 이 분야에서는 시스템과 학습 데이터가 함께 진화한다. 이는 언어 AI에서는 거의 없었던 방식이다.

이 영역이 단기적으로 가장 먼저 드러나는 형태는 AI 웨어러블이라는 소비자 제품 카테고리의 빠른 부상이다. AR 글래스가 아마 가장 눈에 띄는 사례일 것이다. 여기에 음성 또는 비전을 우선 입력 방식으로 삼는 여러 소비자용 웨어러블 기기들이 함께 등장하고 있다.

이런 소비자 기기 생태계는 AI가 물리 세계로 확장할 수 있는 새로운 하드웨어 플랫폼이자, 동시에 물리 세계 데이터를 모으는 인프라가 된다. AI 글래스를 착용한 사람은 인간이 물리 환경을 어떻게 이동하고, 물체를 어떻게 다루고, 세계와 어떻게 상호작용하는지에 대한 연속적인 1인칭 비디오 스트림을 만들어낼 수 있다. 다른 웨어러블 기기들은 생체 데이터와 움직임 데이터를 지속적으로 포착한다. 이들을 합치면 AI 웨어러블의 설치 기반은 물리 세계 AI를 위한 분산형 데이터 수집 네트워크가 된다. 이전에는 불가능했던 규모로 인간의 물리적 경험을 계측하게 되는 것이다. 스마트폰이라는 소비자 기기의 규모를 생각해보면 된다. 컴퓨터가 세계를 감각하는 새로운 방식을 제공하는 소비자 기기가 그 정도 규모로 퍼진다면, AI가 물리 세계와 상호작용하는 거대한 새 채널이 열리는 것과 같다.

뇌-컴퓨터 인터페이스는 이보다 더 깊은 프론티어다. Neuralink는 여러 환자에게 장치를 이식했고, 수술 로봇과 디코더 소프트웨어를 계속 개선하고 있다. Synchron의 혈관 내 Stentrode는 마비 환자들이 디지털 환경과 물리 환경을 제어할 수 있게 하는 데 사용됐다. Echo Neurotechnologies는 고해상도 피질 음성 디코딩 연구를 바탕으로, 발화 복원을 위한 BCI 시스템을 개발하고 있다. 또한 Nudge 같은 새로운 회사들도 등장해, 새로운 신경 인터페이스와 뇌와 상호작용하는 플랫폼을 만들기 위해 인재와 자본을 모으고 있다. 연구 영역의 기술적 이정표도 주목할 만하다. BISC 칩은 단일 칩에서 65,536개 전극 밀도의 무선 신경 기록을 시연했고, BrainGate 팀은 운동 피질에서 내적 발화를 직접 디코딩했다.

AR 글래스, AI 웨어러블, 무성 발화 기기, 이식형 BCI를 관통하는 핵심은 단순히 이들이 모두 인터페이스라는 점이 아니다. 이들은 인간의 물리적 경험과 AI 시스템 사이를 잇는, 점점 더 높은 대역폭의 채널 스펙트럼을 함께 구성한다. 그리고 그 스펙트럼의 모든 지점은 이 글에서 다루는 세 영역의 기초 기술이 계속 발전할 수 있도록 돕는다. 수백만 명의 AI 글래스 착용자가 만들어낸 고품질 1인칭 영상으로 학습한 로봇은, 선별된 원격 조작 데이터셋으로 학습한 로봇과는 다른 조작 사전지식을 갖게 된다. 키보드로 제어되는 실험실 AI와, 무성 발화 명령에 반응하는 실험실 AI는 지연 시간과 조작감이 다르다. 고밀도 BCI 데이터로 학습한 신경 디코더는 다른 어떤 채널로도 얻기 어려운 운동 계획의 표현을 만들어낸다.

새로운 인터페이스는 감각 영역 자체를 넓히는 메커니즘이다. 이전에는 존재하지 않았던 방식으로 물리 세계와 AI 사이에 데이터 채널을 열기 때문이다. 그리고 이 확장이 대규모 소비자 제품을 배포하려는 기업들에 의해 추진되고 있다는 점이 중요하다. 소비자 채택이 늘어날수록 데이터 플라이휠도 함께 가속될 것이다.

Systems for the Physical World

로보틱스, 자율 과학, 새로운 인터페이스를 같은 기초 기술을 조합한 서로 다른 프론티어 시스템으로 봐야 하는 이유는, 이 세 영역이 서로를 강화하고 그 효과가 복리로 쌓이기 때문이다.

로보틱스는 자율 과학을 가능하게 한다. 자율주행 실험실은 본질적으로 로봇 시스템이다. 범용 로보틱스에서 개발된 조작 능력, 예를 들어 정교한 집기, 액체 핸들링, 정밀한 위치 조정, 다단계 작업 수행 같은 능력은 실험실 자동화에 그대로 전이될 수 있다. 로보틱스 모델의 범용성과 견고함이 높아질수록, 자율주행 실험실이 스스로 수행할 수 있는 실험 프로토콜의 범위도 넓어진다. 로봇 학습의 모든 진전은 자율 실험의 비용을 낮추고 처리량을 높인다.

자율 과학은 로보틱스를 가능하게 한다. 자율주행 실험실이 만들어내는 과학 데이터, 예를 들어 검증된 물리 측정값, 인과적 실험 결과, 재료 물성 데이터베이스는 월드 모델과 물리 추론 엔진이 더 좋아지는 데 필요한 구조화되고 현실에 기반한 학습 데이터가 된다. 더 나아가 다음 세대 로봇에 필요한 재료와 장치, 예를 들어 더 나은 액추에이터, 더 민감한 촉각 센서, 더 높은 밀도의 배터리 역시 재료과학의 산물이다. 재료 혁신을 가속하는 자율 발견 플랫폼은 로봇 학습이 작동하는 하드웨어 기반 자체를 직접 개선할 수 있다.

새로운 인터페이스도 로보틱스를 가능하게 한다. AR 기기는 인간이 물리 환경을 어떻게 인식하고 상호작용하는지에 대한 데이터를 대규모로 모을 수 있는 방법이다. 신경 인터페이스는 인간의 운동 의도, 인지적 계획, 감각 처리에 대한 데이터를 만들어낸다. 이런 데이터는 로봇 학습 시스템을 훈련하는 데 매우 중요하다. 특히 인간과 로봇의 협업이나 원격 조작이 필요한 작업에서는 더 그렇다.

여기에는 프론티어 AI 발전의 본질에 대한 더 깊은 지점이 있다. 언어와 코드 중심 패러다임은 이미 놀라운 성과를 냈고, 스케일링 시대에도 계속 강하게 발전하고 있다. 하지만 물리 세계는 거의 무한에 가까운 새로운 문제, 데이터 형식, 피드백 신호, 평가 기준을 제공한다. 로봇이 물체를 조작하고, 실험실이 재료를 합성하고, 인터페이스가 생물학적 세계와 물리 세계에 연결되는 방식으로 AI 시스템을 물리 현실에 고정하면, 기존 디지털 프론티어와 상호 보완적인 새로운 스케일링 축이 열린다. 그리고 이 축들은 서로를 함께 개선할 가능성이 높다.

이런 시스템에서 어떤 창발적 능력이 나올지 정확히 예측하기는 어렵다. 창발은 원래 개별적으로는 이해 가능한 능력들이, 함께 결합될 때 전혀 새로운 방식으로 나타나는 현상이기 때문이다. 하지만 역사적 패턴은 꽤 긍정적이다. AI 시스템이 세계와 상호작용하는 새로운 방식을 얻을 때마다, 예를 들어 볼 수 있게 되었을 때, 말할 수 있게 되었을 때, 읽고 쓸 수 있게 되었을 때, 그 결과로 나타난 능력은 개별 개선의 합보다 훨씬 컸다.

물리 세계 시스템으로의 전환은 그다음 단계의 상전이에 가깝다. 그런 의미에서 지금 만들어지고 있는 기초 기술들은, 프론티어 AI 시스템이 물리 세계를 인식하고, 추론하고, 상호작용할 수 있게 만드는 기반이다. 그리고 이는 물리 세계에서 엄청난 가치와 진보를 열어낼 수 있다.

원문

Discussion about this post

Ready for more?