LLM CacheLLM 캐시는 LLM의 응답을 저장하고 재사용하는 시스템이다.즉, 같은 질문 (프롬프트)에 대한 답변을 매번 새로 생성하지 않고 이전에 생성된 결과를 캐싱하여 빠르게 응답할 수 있도록 하는 기술이다.상업용 API를 사용하거나 직접 모델을 서빙해 LLM을 추론할 수 있는데, 두 가지 모두 추론을 가능한 한 줄이는 것이 자원이나 비용 측면에서 효율적이라고 할 수 있다. LLM Cache를 왜 사용할까?(1) 비용 절감OPENAI API 같은 유료 LLM 서비스를 사용할 때, 같은 질문을 반복하면 불필요한 비용이 발생한다.캐싱을 이용하면 중복 호출을 방지하고 API 사용량을 줄일 수 있다.(2) 속도 향상LLM은 복잡한 연산을 수행하기 때문에 응답 시간이 길어질 수 있다.캐싱을 이용하면 즉시 ..