하네스 엔지니어링 - AI가 미쳐 날뛰지 않게

하네스(Harness)는 원래 말(馬)의 힘을 안전하게 제어하고 이끌기 위한 도구를 가리키는 단어다.

AI가 통제 불가능한 상태로 날뛰지 못하도록 제한된 환경에서 작업을 시키자는 의미로 ‘하네스 엔지니어링’이라는 단어가 등장했다.

하네스 엔지니어링?
하네스 엔지니어링은 AI 에이전트를 안전하게 제어·운용하기 위한 설계 구조를 의미한다.

하네스 엔지니어링에서 기대하는 역할은 3가지다.

하네스의 역할 3가지#

하나씩 살펴보자.

AI 에이전트의 입력과 출력 양쪽을 제어하여 설계된 목적 범위 밖의 동작을 사전에 차단하는 구조를 의미한다.

AI 에이전트는 사실과 다른 정보를 그럴듯하게 생성하는 할루시네이션이 발생할 수 있으며, 이는 서비스 품질 저하나 보안 사고로 직결된다.

이를 방지하기 위해, 에이전트의 행동 범위에 제약을 준다. 구체적으로는 다음과 같이 제어를 해준다.

하나의 맥락에서 오랫동안 AI를 사용하다보면, 이전에 나누었던 대화의 맥락을 기억하지 못하고 엉뚱한 답변을 내놓는 경험을 해보았을 것이다.

우리가 지난 주 화요일 점심에 뭘 먹었는지 기억하기 어려운 것 처럼, AI는 기억할 수 있는 용량에 한계가 있다.

그래서 에이전트는 작업을 진행하면 할수록, 과거에 다루었던 맥락을 점점 까먹는(?)듯한 흐름을 보인다. what do you mean

AI가 작업 도중 길을 잃는 것을 방지하기 위해, 이를 보조하는 서브 에이전트를 둘 수 있다.

에이전트가 가져온 결과물에서 문제를 발견했다면, 다음 동작에 반영하는 피드백 루프가 필요하다.

harness-engineering

하네스 엔지니어링은 에이전트가 너무 많이 날뛰지 않게 제약을 주는 정도의 임시 조치로 보인다. 이걸 이해하고 적용한다고 해서 AI가 정확한 답변을 하고 신뢰할 수 있는 정도는 아니라는 말이다.

AI의 메모리에는 한계가 있고(물론 발전 중이지만 돈이 많이 들어감), 엉성하다.

점점 중요해지는 것은 오염되고 방대한 정보들이 섞여있는 데이터가 아닌, 깨끗하고 정제된 데이터를 얼마나 AI가 기억할 수 있게 하는지가 아닐까 싶다.

관련해서 온톨로지 라는 개념이 또 떠오르는 주제라 보이는데, 관심 있으시면 읽어보시길.