<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom"><channel><title>Posts on Watchstep Blog</title><link>https://blog.watchstep.site/posts/</link><description>Recent content in Posts on Watchstep Blog</description><generator>Hugo</generator><language>en</language><copyright>Â©Â 2025 watchstep</copyright><lastBuildDate>Fri, 08 May 2026 20:57:01 +0900</lastBuildDate><atom:link href="https://blog.watchstep.site/posts/index.xml" rel="self" type="application/rss+xml"/><item><title>👺 Reward Hacking in GPT-5’s “Goblin” Habit</title><link>https://blog.watchstep.site/posts/goblin_habit_gpt_5/</link><pubDate>Fri, 08 May 2026 20:57:01 +0900</pubDate><guid>https://blog.watchstep.site/posts/goblin_habit_gpt_5/</guid><description>&lt;p>OpenAI에서 최근 공개한 &lt;a href="https://openai.com/index/where-the-goblins-came-from/">&lt;strong>“Where the goblins came from”&lt;/strong>&lt;/a> 글을 읽고 흥미로워서, 이 사례를 넓은 의미의 reward hacking 관점에서 정리해보고자 한다.&lt;/p>
&lt;h2 id="0-reward-hacking">0/ Reward Hacking&lt;/h2>
&lt;img width="350" height="auto" alt="https://pub.towardsai.net/what-is-reinforcement-learning-a-deep-and-practical-guide-to-the-most-powerful-idea-in-ai-m006-56144a292de9" src="image_1.png" />
&lt;p>Reward Hacking은 모델이 인간이 의도한 진짜 목표를 달성하는 대신, 학습 과정에 주어진 proxy reward (대리 보상 ↔ true reward)를 최대화하면서 실제 의도한 task는 수행하지 못하거나, 성능이 오히려 저하되는 현상이다.&lt;/p></description></item><item><title>🤖 RAG with Gemini File Search 기반 의료 진단 기록 카카오톡 챗봇 개발 기록 2️⃣</title><link>https://blog.watchstep.site/posts/emr_rag_kakaotalk_chatbot_2/</link><pubDate>Mon, 04 May 2026 16:28:13 +0900</pubDate><guid>https://blog.watchstep.site/posts/emr_rag_kakaotalk_chatbot_2/</guid><description>gemini-3-flash-preview, JSON 구조화 출력, 서버 후검증을 적용한 개발 기록 2</description></item><item><title>🤖 RAG with Gemini File Search 기반 의료 진단 기록 카카오톡 챗봇 개발 기록 1️⃣</title><link>https://blog.watchstep.site/posts/emr_rag_kakaotalk_chatbot_1/</link><pubDate>Wed, 29 Apr 2026 21:32:46 +0900</pubDate><guid>https://blog.watchstep.site/posts/emr_rag_kakaotalk_chatbot_1/</guid><description>Gemini File Search Store을 활용하고, 카카오톡 챗봇에서 인증된 환자의 의료 기록만 검색해 답변하는 RAG 기반 의료 기록 챗봇 개발 기록 1</description></item><item><title>🗃️ Meta-Harness : End-to-End Optimization of Model Harnesses (2026-03) 논문 리뷰</title><link>https://blog.watchstep.site/posts/meta-harness/</link><pubDate>Wed, 08 Apr 2026 12:07:49 +0900</pubDate><guid>https://blog.watchstep.site/posts/meta-harness/</guid><description>&lt;p>본 글은 &lt;strong>&lt;a href="https://yoonholee.com/meta-harness/">Meta-Harness: End-to-End Optimization of Model Harnesses&lt;/a>&lt;/strong> 논문 리뷰 글이다.&lt;/p>
&lt;h2 id="0-harness">0/ Harness&lt;/h2>
&lt;img width="500" height="auto" alt="AI Engineering Harness의 개념을 말과 안장 비유로 설명한 그림" src="image_1.png" />
&lt;p>&lt;a href="https://strategizeyourcareer.com/p/harness-engineering-ai-agents">https://strategizeyourcareer.com/p/harness-engineering-ai-agents&lt;/a>&lt;/p></description></item><item><title>🏇 Harness Engineering for coding agents</title><link>https://blog.watchstep.site/posts/harness_engineering/</link><pubDate>Sun, 05 Apr 2026 20:02:02 +0900</pubDate><guid>https://blog.watchstep.site/posts/harness_engineering/</guid><description>&lt;h2 id="0-harness-engineering">0/ Harness Engineering&lt;/h2>
&lt;img width="500" height="auto" alt="" src="image_1.png" />
&lt;p>Harness는 모델을 둘러싼 모든 외부 환경으로, 시스템 프로프트, 파일 시스템, 모델 라우팅, 외부 도구 등 모델 바깥에서 동작하는 시스템 전체를 의미한다.
(모델이 🐴 말이면 harness는 말이 마차를 잘 끌 수 있도록 사용하는 마구.)&lt;/p></description></item><item><title>👊 Gandalf와 함께 하는 Prompt Injection</title><link>https://blog.watchstep.site/posts/gandalf_prompt_injection/</link><pubDate>Fri, 27 Mar 2026 16:04:59 +0900</pubDate><guid>https://blog.watchstep.site/posts/gandalf_prompt_injection/</guid><description>&lt;p>&lt;strong>&lt;a href="https://gandalf.lakera.ai/gandalf-the-white">Gandalf | Lakera - Test your AI hacking skills&lt;/a>&lt;/strong>&lt;/p>
&lt;p>총 8단계로 구성되어 있는 &lt;a href="https://gandalf.lakera.ai/gandalf-the-white">Prompt Injection Challenge Game&lt;/a>으로, Gandalf로부터 password를 알아내는 것이 목표이다. 단계가 올라갈수록 비밀번호를 알아내기 점점 힘들다 😢 (필자는 7단계까지 했다.)&lt;/p></description></item><item><title>☁️ 프롬프트로 ChatGPT에서 Claude로 메모리 가져오기</title><link>https://blog.watchstep.site/posts/claude_memory_switch/</link><pubDate>Fri, 20 Mar 2026 16:10:19 +0900</pubDate><guid>https://blog.watchstep.site/posts/claude_memory_switch/</guid><description>Claude로 메모리 가져오기 기능</description></item><item><title>👶 BACK TO THE BASIC 0: LLM</title><link>https://blog.watchstep.site/posts/back_to_the_basic_llm/</link><pubDate>Fri, 05 Dec 2025 09:41:14 +0900</pubDate><guid>https://blog.watchstep.site/posts/back_to_the_basic_llm/</guid><description>&lt;p>2022년 말에 공개된 ChatGPT는 출시 단 5일만에 100만 명의 이용자 수를 달성하면서 엄청난 AI 열풍이 일으켰다. 이후 현재까지 꾸준히 버전을 높여 GPT-5 모델을 공개했으며, Claude, Gemini, DeepSeek 등 다양한 LLM(Large Language Model)이 나왔고, 일상생활 곳곳에 깊이 자리를 잡고 있다.&lt;/p></description></item><item><title>🕵️ Weight-sparse transformers have interpretable circuits (OpenAI) 논문 리뷰</title><link>https://blog.watchstep.site/posts/sparse-circuit/</link><pubDate>Mon, 24 Nov 2025 17:06:43 +0900</pubDate><guid>https://blog.watchstep.site/posts/sparse-circuit/</guid><description>Interpreting LLM with sparse circuits</description></item><item><title>🦜 Emergent Introspective Awareness in Large Language Models (Anthropic, 2025-10-29) 논문 리뷰</title><link>https://blog.watchstep.site/posts/introspection/</link><pubDate>Fri, 07 Nov 2025 13:55:35 +0900</pubDate><guid>https://blog.watchstep.site/posts/introspection/</guid><description>Studying on self-awareness in LLM</description></item></channel></rss>