Posts on Watchstep Blog

👺 Reward Hacking in GPT-5’s “Goblin” Habit

Fri, 08 May 2026 20:57:01 +0900

OpenAI에서 최근 공개한 “Where the goblins came from” 글을 읽고 흥미로워서, 이 사례를 넓은 의미의 reward hacking 관점에서 정리해보고자 한다.

0/ Reward Hacking

Reward Hacking은 모델이 인간이 의도한 진짜 목표를 달성하는 대신, 학습 과정에 주어진 proxy reward (대리 보상 ↔ true reward)를 최대화하면서 실제 의도한 task는 수행하지 못하거나, 성능이 오히려 저하되는 현상이다.

🤖 RAG with Gemini File Search 기반 의료 진단 기록 카카오톡 챗봇 개발 기록 2️⃣

Mon, 04 May 2026 16:28:13 +0900

gemini-3-flash-preview, JSON 구조화 출력, 서버 후검증을 적용한 개발 기록 2

🤖 RAG with Gemini File Search 기반 의료 진단 기록 카카오톡 챗봇 개발 기록 1️⃣

Wed, 29 Apr 2026 21:32:46 +0900

Gemini File Search Store을 활용하고, 카카오톡 챗봇에서 인증된 환자의 의료 기록만 검색해 답변하는 RAG 기반 의료 기록 챗봇 개발 기록 1

🗃️ Meta-Harness : End-to-End Optimization of Model Harnesses (2026-03) 논문 리뷰

Wed, 08 Apr 2026 12:07:49 +0900

본 글은 Meta-Harness: End-to-End Optimization of Model Harnesses 논문 리뷰 글이다.

0/ Harness

https://strategizeyourcareer.com/p/harness-engineering-ai-agents

🏇 Harness Engineering for coding agents

Sun, 05 Apr 2026 20:02:02 +0900

0/ Harness Engineering

Harness는 모델을 둘러싼 모든 외부 환경으로, 시스템 프로프트, 파일 시스템, 모델 라우팅, 외부 도구 등 모델 바깥에서 동작하는 시스템 전체를 의미한다. (모델이 🐴 말이면 harness는 말이 마차를 잘 끌 수 있도록 사용하는 마구.)

👊 Gandalf와 함께 하는 Prompt Injection

Fri, 27 Mar 2026 16:04:59 +0900

Gandalf | Lakera - Test your AI hacking skills

총 8단계로 구성되어 있는 Prompt Injection Challenge Game으로, Gandalf로부터 password를 알아내는 것이 목표이다. 단계가 올라갈수록 비밀번호를 알아내기 점점 힘들다 😢 (필자는 7단계까지 했다.)

☁️ 프롬프트로 ChatGPT에서 Claude로 메모리 가져오기

Fri, 20 Mar 2026 16:10:19 +0900

Claude로 메모리 가져오기 기능

👶 BACK TO THE BASIC 0: LLM

Fri, 05 Dec 2025 09:41:14 +0900

2022년 말에 공개된 ChatGPT는 출시 단 5일만에 100만 명의 이용자 수를 달성하면서 엄청난 AI 열풍이 일으켰다. 이후 현재까지 꾸준히 버전을 높여 GPT-5 모델을 공개했으며, Claude, Gemini, DeepSeek 등 다양한 LLM(Large Language Model)이 나왔고, 일상생활 곳곳에 깊이 자리를 잡고 있다.

🕵️ Weight-sparse transformers have interpretable circuits (OpenAI) 논문 리뷰

Mon, 24 Nov 2025 17:06:43 +0900

Interpreting LLM with sparse circuits

🦜 Emergent Introspective Awareness in Large Language Models (Anthropic, 2025-10-29) 논문 리뷰

Fri, 07 Nov 2025 13:55:35 +0900

Studying on self-awareness in LLM