GPT-5.5 Instant 공개 — ChatGPT 환각 52.5% 줄었다

카테고리 없음

GPT-5.5 Instant 공개 — ChatGPT 환각 52.5% 줄었다

sombaragi 2026. 5. 8. 08:00

🤖 AI 뉴스

OpenAI가 5월 5일 ChatGPT 기본 모델을 GPT-5.3 Instant에서 GPT-5.5 Instant로 교체했다. 의료·법률·금융 같은 고위험 프롬프트의 사실성이 큰 폭으로 개선됐고 응답 길이는 30% 가까이 짧아졌다.

GPT-5.5 Instant는 2026년 5월 5일부터 ChatGPT의 새로운 기본 모델이 됐다. 핵심 변화는 세 가지다. 첫째, 의료·법률·금융 같은 고위험 프롬프트에서 환각 발화가 GPT-5.3 Instant 대비 52.5% 줄었다. 둘째, 평균 응답이 30.2% 짧고 줄 수도 29.2% 적어졌다. 셋째, 과거 대화·파일·Gmail을 출처로 끌어와 답변에 반영하는 메모리 소스 기능이 추가됐다.

GPT-5.5 Instant은 무엇인가?

GPT-5.5 Instant는 OpenAI가 GPT-5 계열 안에서 운영하던 두 갈래 라인업 중 빠른 응답 라인의 신모델이다. ChatGPT는 사용자가 모델을 명시하지 않으면 라우터가 질문을 분류해 Instant 라인 또는 추론(Thinking) 라인으로 보낸다. GPT-5.5 Instant는 이 자동 분기에서 곧바로 호출되는 기본 모델이며, 동시에 API에서는 chat-latest 라는 별칭으로 제공된다.

이 자리에 있던 GPT-5.3 Instant는 3개월 동안만 유료 사용자에게 옵션으로 남겨둔 뒤 사라진다. 즉, GPT-5.5 Instant는 단순한 마이너 업그레이드가 아니라 ChatGPT가 매일 처리하는 수십억 건의 일반 질의를 떠받치는 모델 자체가 바뀐 사건이다. 발표 시점 기준 무료·Plus·Pro·Business·Enterprise·Edu 모든 등급에 순차 배포되며, API 단에서도 chat-latest를 호출하는 모든 트래픽에 자동 반영된다.

OpenAI가 강조한 메시지는 명확하다. GPT-5.5 Instant는 똑똑함보다 신뢰성, 화려한 수사보다 짧고 정확한 답을 우선한다. 같은 질문을 던졌을 때 GPT-5.3 Instant가 7문장으로 풀어쓰던 답을 GPT-5.5 Instant는 4~5문장으로 끝낸다. 사용자가 "더 자세히"라고 추가로 요청하기 전에는 GPT-5.5 Instant가 먼저 길이를 늘리지 않는다.

환각 52.5% 감축, 어디서 검증됐나

OpenAI가 공개한 내부 평가에서 GPT-5.5 Instant는 의료·법률·금융 영역의 고위험 프롬프트에서 GPT-5.3 Instant 대비 환각 진술을 52.5% 감축했다. 환각은 모델이 사실이 아닌 내용을 그럴듯하게 생성하는 현상이다. ChatGPT가 의료 부작용·세법 해석·계약 조건 같은 질문에 잘못된 숫자나 출처를 만들어내면 사용자에게 직접적 손해로 이어지기 때문에, OpenAI는 이 영역의 사실성 지표를 별도로 추적해 왔다.

GPT-5.5 Instant의 사실성 개선은 단발성 트릭이 아니다. OpenAI는 사실성이 전반에 걸쳐 의미 있게 개선됐다고 강조했고, 데이터셋 교체와 강화학습 보상 함수 조정이 함께 들어갔다고 시사했다. 환각 감축이 단순히 답을 짧게 깎아냈기 때문이라는 의심을 차단하기 위해, 응답 길이를 통제한 별도 평가에서도 GPT-5.5 Instant가 GPT-5.3 Instant보다 정확도가 높았다고 보고했다.

GPT-5.5 INSTANT 핵심 수치

고위험 프롬프트 환각 감축: GPT-5.3 Instant 대비 −52.5%
평균 응답 단어 수 감소: −30.2%
평균 응답 줄 수 감소: −29.2%
API 별칭: chat-latest
전임 GPT-5.3 Instant 잔존 기간: 약 3개월

이 환각 감축 폭은 ChatGPT가 일반 사용자의 일상 검색을 일부 흡수하는 시기에 나왔다는 점에서 특히 의미가 크다. GPT-5.5 Instant가 진단명·약품·법조문·세금 산식을 다룰 때 잘못된 사실을 만들어낼 확률이 절반 가까이 떨어졌다는 뜻이다. 물론 절반이 사라진 게 아니라 절반 가까이 줄었을 뿐이므로, 의료·법률·금융 같은 결정에 GPT-5.5 Instant 답을 그대로 쓰는 건 여전히 위험하다는 사실 자체는 바뀌지 않는다.

응답이 30% 더 짧아진 이유

GPT-5.5 Instant 사용자가 가장 먼저 체감하는 변화는 응답이 짧아졌다는 점이다. OpenAI는 GPT-5.5 Instant가 단어 수 30.2%, 줄 수 29.2% 줄었고 무의미한 이모지가 줄었다고 밝혔다. 즉, 같은 질문을 던졌을 때 GPT-5.3 Instant가 굳이 풀어쓰던 머리말·정리표·결론 문단을 GPT-5.5 Instant는 거의 생략한다. ChatGPT가 무거운 보고서 모드에서 빠른 답변 모드로 무게중심을 옮긴 셈이다.

짧아진 답이 만들어내는 효과는 두 갈래다. 첫째, 토큰 비용이 줄어 OpenAI 입장에서는 GPU 시간이 절감된다. 둘째, 사용자가 답을 끝까지 읽는 비율이 올라간다. GPT-5.3 Instant 시절 길게 채워진 글머리표 응답은 정작 결정을 내릴 때 다시 스크롤해야 하는 부담이 있었다. GPT-5.5 Instant는 결론을 앞쪽에 붙이고 부가 설명은 사용자가 요청해야만 펼친다.

실무에서 GPT-5.3 Instant를 매일 다루는 사람으로서 가장 반가운 변화는 이모지 절감이다. GPT-5.3 Instant는 "정리해 드릴게요 ✨" 같은 잉여 표현을 자주 붙였는데, GPT-5.5 Instant는 같은 프롬프트에서 이모지 없이 본론부터 들어간다. 회의록·계약서 초안처럼 어른스러운 톤이 필요한 작업에서 GPT-5.5 Instant가 훨씬 다루기 편해졌다.

메모리 소스(Memory Sources)는 무엇이 다른가

GPT-5.5 Instant 발표에서 두 번째 큰 축은 메모리 소스(Memory Sources) 기능이다. ChatGPT가 답을 만들 때 어떤 과거 대화·업로드한 파일·연결된 Gmail 메시지를 참고했는지 출처를 같이 보여주는 구조다. 사용자는 답변 옆에 표시된 출처를 확인하고, 잘못된 출처라면 직접 삭제하거나 정정할 수 있다. ChatGPT는 출처 표시를 GPT-5.5 Instant뿐 아니라 모든 모델에 걸쳐 적용한다.

메모리 소스가 중요한 이유는 GPT-5.5 Instant 같은 일상 모델이 점점 개인 정보를 끌어다 쓰게 되기 때문이다. ChatGPT가 Gmail에 들어 있던 항공권 일정을 답에 반영했다면, 그 사실이 사용자에게 명시되어야 한다. 어디서 가져왔는지 모르는 답은 검증도, 회수도 불가능하다. GPT-5.5 Instant는 출처를 클릭해서 원래 메시지로 돌아갈 수 있는 인터페이스를 제공한다.

개인화 측면에서도 의미가 있다. ChatGPT는 동일한 사용자에게 며칠 전 한 답이 모순되지 않도록 메모리를 활용해 왔는데, GPT-5.5 Instant 시대의 메모리 소스는 이 메모리가 어떤 입력에서 만들어졌는지를 그대로 노출한다. Plus·Pro 등급 웹에서 먼저 풀리고 모바일은 곧 따라온다.

GPT-5.3에서 GPT-5.5 Instant로 — 사용자가 체감할 변화

사용자가 ChatGPT 앱을 새로고침하면 모델 선택을 건드리지 않아도 자동으로 GPT-5.5 Instant가 적용된다. 무료 등급에서도 마찬가지다. GPT-5.3 Instant가 길게 늘어놓던 형식적 인사·서론·결론이 사라졌다는 첫인상부터, 의료·법률·금융 질문에서 답변이 더 또렷해졌다는 느낌까지가 첫 며칠 안에 잡힌다.

반대 방향의 체감도 있다. 보고서를 길게 받고 싶었던 사용자에겐 GPT-5.5 Instant가 너무 인색해 보일 수 있다. 이때는 "더 길게", "각 항목당 3문단"처럼 명시적으로 요청하면 GPT-5.5 Instant가 길이를 펼친다. OpenAI는 길이 통제를 사용자 측 명령에 맡기는 쪽으로 기본 설정을 바꿨다.

사용자가 모델 선택기에서 일부러 GPT-5.5(추론 라인)나 GPT-5.5 Pro를 부르면 GPT-5.5 Instant가 아닌 더 무거운 추론 모델이 호출된다. 즉, GPT-5.5 Instant는 일상 질문 자동 라우팅용 기본값이고, 깊은 분석·코드·연구는 여전히 별도 모델에 맡기는 분리 구조가 유지된다.

API 사용자에게 의미하는 것

개발자에게는 변화가 더 직관적이다. chat-latest 별칭을 사용하던 모든 호출이 자동으로 GPT-5.5 Instant로 라우팅된다. GPT-5.5 Instant는 응답이 짧아진 만큼 출력 토큰 비용이 줄어들고, 환각 감축으로 후처리 검증 단계가 가벼워진다. 다만 chat-latest는 OpenAI가 언제든 또 갈아끼울 수 있는 별칭이기 때문에, 동작을 고정하고 싶은 워크로드는 명시적인 모델 핀(예: 특정 GPT-5.5 Instant 스냅숏)을 따로 잡아두는 편이 안전하다.

API에서 GPT-5.5 Instant를 부르는 워크플로는 보통 라우팅 + 후속 추론 모델 조합이다. 1차로 GPT-5.5 Instant가 사용자 질의를 분류하고, 무거운 분석은 GPT-5.5 본체나 OpenAI o3 라인으로 넘긴다. GPT-5.5 Instant 자체는 하이엔드 코딩이나 장문 추론을 노리는 모델이 아니므로, 이 분업 구조에서 가장 큰 가치를 낸다.

기업 입장에서 GPT-5.5 Instant 도입 체크리스트는 세 가지다. 첫째, 응답이 짧아진 만큼 기존 프롬프트 템플릿이 너무 짧은 답을 만들지 않는지 확인한다. 둘째, 메모리 소스가 켜진 채 GPT-5.5 Instant를 쓰면 사내 문서가 어떤 출처로 추적되는지 점검해야 한다. 셋째, 환각 감축이 평균값일 뿐 개별 케이스에서 보장되지 않으므로 의료·법률·금융 결과 검수 절차는 그대로 유지해야 한다.

자주 묻는 질문

Q. GPT-5.5 Instant와 GPT-5.5는 같은 모델인가요?

A. 다릅니다. GPT-5.5 Instant는 빠른 응답용 라인이고, GPT-5.5(추론 라인)와 GPT-5.5 Pro는 더 무거운 추론 모델입니다. ChatGPT 라우터가 자동으로 둘 사이를 분기합니다.

Q. 이전 GPT-5.3 Instant는 영영 사라지나요?

A. 약 3개월간 유료 사용자에게 옵션으로 남았다가 사라집니다. 새 트래픽은 모두 GPT-5.5 Instant가 받습니다.

Q. 메모리 소스를 끌 수 있나요?

A. 출처 자체를 끄거나 개별 출처를 삭제·수정할 수 있습니다. ChatGPT 메모리 설정에서 관리합니다.

Q. API에서 GPT-5.5 Instant를 어떻게 호출하나요?

A. chat-latest 별칭으로 호출하면 GPT-5.5 Instant가 응답합니다. 동작을 고정하려면 OpenAI가 제공하는 모델 스냅숏 ID를 직접 지정하세요.

sombaragi