<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom"><channel><title>LLM on Watchstep Blog</title><link>https://blog.watchstep.site/tags/llm/</link><description>Recent content in LLM on Watchstep Blog</description><generator>Hugo</generator><language>en</language><copyright>Â©Â 2025 watchstep</copyright><lastBuildDate>Tue, 09 Dec 2025 10:22:13 +0900</lastBuildDate><atom:link href="https://blog.watchstep.site/tags/llm/index.xml" rel="self" type="application/rss+xml"/><item><title>👶 BACK TO THE BASIC 0: LLM</title><link>https://blog.watchstep.site/posts/back_to_the_basic_llm/</link><pubDate>Fri, 05 Dec 2025 09:41:14 +0900</pubDate><guid>https://blog.watchstep.site/posts/back_to_the_basic_llm/</guid><description>&lt;p>2022년 말에 공개된 ChatGPT는 출시 단 5일만에 100만 명의 이용자 수를 달성하면서 엄청난 AI 열풍이 일으켰다. 이후 현재까지 꾸준히 버전을 높여 GPT-5 모델을 공개했으며, Claude, Gemini, DeepSeek 등 다양한 LLM(Large Language Model)이 나왔고, 일상생활 곳곳에 깊이 자리를 잡고 있다.&lt;/p></description></item><item><title>🔬 Deep Researcher with Test-Time Diffusion (Google Cloud;2025) 논문 리뷰</title><link>https://blog.watchstep.site/posts/paper_ttd-dr/</link><pubDate>Fri, 22 Aug 2025 10:49:00 +0900</pubDate><guid>https://blog.watchstep.site/posts/paper_ttd-dr/</guid><description>인간의 연구 과정에서 영감을 받아 Diffusion 방식으로 발전한 AI Deep Research Agent</description></item><item><title>🌳 LLaDA; Large Language Diffusion Models (2025-02) 논문 리뷰</title><link>https://blog.watchstep.site/posts/llada/</link><pubDate>Fri, 21 Mar 2025 00:00:00 +0900</pubDate><guid>https://blog.watchstep.site/posts/llada/</guid><description>&lt;p>최근 등장한 Diffusion Models들은 ARMs (Autoregressive Models) 만큼 성능이 괜찮은 편이고, context-awareness 영역에서는 성능이 더 강하다는 평이 나오고 있다.
→ DLMs이 전통 ARMs 대체할 새로운 대안으로 부상하고 있는 것 같다.&lt;/p></description></item><item><title>🏝️ CoCoMix; LLM Pretraining with Continuous Concepts (Meta, 2025) 논문 리뷰</title><link>https://blog.watchstep.site/posts/cocomix/</link><pubDate>Fri, 07 Mar 2025 00:00:00 +0900</pubDate><guid>https://blog.watchstep.site/posts/cocomix/</guid><description>&lt;img src="image_1.png" alt="image_1.png" style="width:150px;height:auto;" />
&lt;h2 id="cocomix-continuous-concept-mixing">&lt;strong>CoCoMix (Continuous Concept Mixing)&lt;/strong>&lt;/h2>
&lt;p>next token prediction과 continuous concepts를 결합한 프레임워크.&lt;/p>
&lt;ul>
&lt;li>pretrained sparse autoencoder를 통한 concept 추출.&lt;/li>
&lt;li>continuous concept를 hidden state에 혼합
→ discrete language tokens 대신 continuous latent representations으로 대체하는 접근 방식.
(LLM이 본질적으로 high-level concept과 reasoning 가정을 latent representations에 내재하고 있다는 것을 설명)&lt;/li>
&lt;/ul>
&lt;h2 id="1-problem">1/ Problem&lt;/h2>
&lt;ul>
&lt;li>일반적으로 LLM은 token-level에서 학습됨. 주어진 context에 따라 가장 적절한 next token을 예측하도록 학습 → &lt;code>the&lt;/code>, &lt;code>a&lt;/code>, &lt;code>and&lt;/code> 등과 같은 기능어 (function words ↔ content words)처럼 피상적인 단어들이 있어 모델이 reasoning하기 위해서 (심층적인 의미 이해)는 많은 훈련이 필요함.&lt;/li>
&lt;/ul>
&lt;h2 id="2-solution">2/ Solution&lt;/h2>
&lt;p>SAE (Sparse Autoencoder)를 사용해 의미 있는 concept를 추출하고, 이를 모델의 hidden state에 결합. concept은 next token prediction에 직접적으로 기여하게 됨. (각 context에 대해 의미 있는 concept를 효과적으로 추출해 표현)&lt;/p></description></item><item><title>🥥 CoCoNut; Training Large Language Models to Reason in a Continuous Latent Space (Meta, 2024) 논문 리뷰</title><link>https://blog.watchstep.site/posts/coconut/</link><pubDate>Fri, 24 Jan 2025 00:00:00 +0900</pubDate><guid>https://blog.watchstep.site/posts/coconut/</guid><description>&lt;h2 id="1-chain-of-thought-cot">1/ Chain-Of-Thought (CoT)&lt;/h2>
&lt;p>&lt;strong>CoT 한계&lt;/strong>: LLM의 reasoning이 텍스트 형태로 생성되어야 한다는 점은 제약을 가할 수 있다.&lt;/p>
&lt;p>Neuroimaging 연구에 의하면 언어 이해 및 생성을 담당하는 인간 두뇌 영역이 추론 과정 중에는 비활성화된다고 함. 이는 언어는 communication에 적합할 뿐 복잡한 문제 해결에는 불필요하다는 것을 시사한다.&lt;/p></description></item></channel></rss>