View

728x90
반응형

"Hermes"를 검색했는데 가방만 줄줄 뜨는 경험이 한 번쯤 있을 것이다. 요즘 AI 커뮤니티에서 언급되는 Hermes AI 모델은 프랑스 럭셔리 브랜드 에르메스와는 완전히 다른 물건이다. Nous Research 팀이 만든 오픈소스 LLM이고, 2025년 후반에 Hermes 4가 공개된 뒤 Reddit r/LocalLLaMA 상단에 관련 스레드가 한 달 넘게 걸려 있었다.

 

다만 한국어 자료는 얇다. 네이버는 죄다 버킨백·켈리백이고, 티스토리도 영문 기사 번역 수준이 대부분이다. 그래서 Hermes AI의 정체, 지금 주목받는 이유, 집에서 돌려보는 법, 실제로 써볼 만한지까지 한 번에 정리해보았다. 분량은 2,400단어 선에서 마친다.

 

Hermes AI 모델이란 무엇인가

 

 

출처: huggingface.co

Hermes AI 모델은 Nous Research라는 연구 집단이 만든 오픈소스 대규모 언어모델(LLM) 시리즈다. GPT-4나 Claude처럼 질문하면 답하는 AI이지만, 코드와 가중치(weights)가 공개돼 있어 누구나 다운받아 로컬에서 돌릴 수 있다는 점이 핵심 차이다.

 

한 가지 오해하면 안 되는 지점은, Hermes가 처음부터 새로 만든 모델이 아니라는 사실이다. Meta의 Llama 시리즈나 Qwen 같은 베이스 모델 위에 파인튜닝을 얹은 인스트럭션 모델로 보면 된다. 비유하자면 Llama가 "말은 할 줄 아는데 사람 말귀를 잘 못 알아듣는 아이"라면, Hermes는 Llama에게 "사람 말귀를 알아듣고 쫄지 말고 답하라"라고 가르친 버전인 셈이다.

 

Nous Research는 어떤 팀인가

 

Nous Research는 2023년에 설립된, 탈중앙화(decentralized) AI를 표방하는 연구 집단이다. OpenAI나 Anthropic 같은 거대 기업형 구조가 아니라, 오픈소스 모델을 공개하고 커뮤니티 기반으로 굴러가는 형태다. 창립자 중 Teknium은 Hugging Face에서 오랫동안 파인튜닝 모델을 뿌려온 인물로 유명하다.

 

팀의 방향성은 단순하다. 상업 모델이 점점 더 검열되고 갇히는 반면, 개발자가 자유롭게 쓸 수 있는 강력한 오픈웨이트 모델이 필요하다는 전제다. 2025년 들어 이 포지셔닝이 실제 수요로 이어지기 시작했다.

 

Hermes 시리즈 연혁 한눈에

 

버전 출시 시기 베이스 모델 주요 파라미터
Hermes 2 2024년 초 Mistral, Llama 2 7B, 34B
Hermes 2 Pro 2024년 중반 Llama 3 8B, 70B
Hermes 3 2024년 후반 Llama 3.1 8B, 70B, 405B
Hermes 4 2025년 후반 Llama 3.3 / 자체 8B, 70B, 405B

 

Hermes 3까지는 Llama 의존도가 꽤 높았으나, Hermes 4부터는 자체 학습 파이프라인 비중이 눈에 띄게 커졌다. 이것이 지금의 관심도에 영향을 준 요소 중 하나다.

 

왜 요즘 Hermes가 주목받는가

 

 

출처: the-decoder.com

이유는 크게 세 갈래인데, 서로 엮여 있어 딱 떨어지게 분리되지는 않는다.

 

벤치마크 격차가 좁혀졌다

 

2025년 후반 공개된 Hermes 4 405B는 MMLU-Pro, GPQA-Diamond, MATH 같은 reasoning 벤치마크에서 오픈소스 최상위권에 올랐다. GPT-4o 대비 점수 차이가 영역에 따라 0.5~1점 수준으로 좁혀진 것이 포인트다.

 

맥락이 중요하다. 2024년까지만 해도 "오픈소스는 상업 모델을 못 따라간다"가 기본 전제였다. Hermes 4가 그 갭을 완전히 없앴다기보다는, 적어도 벤치마크 기준에서는 같은 리그에서 비교가 가능하다는 사실을 증명했다. r/LocalLLaMA의 Hermes 4 리뷰 스레드가 업보트 5천을 넘긴 사실이 분위기를 보여준다.

 

언센서드 포지셔닝

 

상업 LLM을 써봤다면 "그 질문은 답변드릴 수 없습니다"라는 응답을 한 번쯤 받아봤을 것이다. Hermes는 불필요한 검열을 최소화하는 방향으로 튜닝돼 있다.

 

오해하면 안 되는 지점은, 이것이 불법 콘텐츠 생성 모델이라는 이야기가 아니라는 사실이다. 보안 연구자가 취약점 코드를 물었을 때 GPT가 거절하거나, 의료 종사자가 약물 상호작용을 물었을 때 Claude가 얼버무리는 상황에서 Hermes는 정상적으로 답하는 쪽에 가깝다. 기업이 로컬 배포 시 이 부분 때문에 Hermes를 고르는 사례가 꽤 있다고 알려져 있다.

 

오픈웨이트 + 상업 이용 가능 라이선스

 

Hermes는 Llama 라이선스를 그대로 따라가는데, 월간 액티브 유저 7억 명 이하 기업은 무료로 상업 이용이 가능하다. 대부분의 스타트업과 중견 기업은 이 제한에 걸리지 않아 사실상 무료다.

 

실무적으로 이것이 무엇을 의미하는가. 금융이나 의료, 법률처럼 데이터를 외부로 내보낼 수 없는 업계에서 온프레미스 배포 카드를 꺼낼 수 있다는 뜻이다. GPT-4 API로 월 수천만원씩 청구서를 받던 팀이 자체 GPU만 확보하면 API 비용을 0으로 만들 수 있고, 자사 데이터로 재학습시켜 도메인 특화 모델을 만드는 것도 자유롭게 가능해진다.

 

Hermes 벤치마크 성능

 

 

출처: projectpro.io

 

숫자는 2026년 4월 기준 Nous Research 공식 발표와 Hugging Face 모델 카드에서 정리했다. 버전이 업데이트되면 달라질 수 있으니 실제 사용 전에는 최신 자료를 확인하는 것이 좋다.

 

Llama, Qwen, GPT-OSS와의 비교

 

모델 MMLU GPQA HumanEval MATH
Hermes 4 405B 88.2 52.8 89.5 76.3
Llama 3.3 70B 86.0 50.5 85.2 72.1
Qwen 2.5 72B 85.4 49.1 86.7 74.5
GPT-OSS 120B 87.1 51.3 88.0 75.0
GPT-4o (참고) 88.7 53.6 90.2 76.6

 

표를 보면 Hermes 4 405B는 오픈소스 중 최상위권이고, GPT-4o와의 격차도 MMLU 기준 0.5점 수준이다. HumanEval은 89.5까지 올라왔는데, 1년 전만 해도 오픈소스 70B 모델이 이 구간에 들어오지 못했던 점을 감안하면 변화 속도가 빠른 편이다.

 

추론 벤치마크에서 튀는 이유

 

Hermes 4가 특히 잘하는 영역이 복잡한 reasoning 태스크다. Nous Research가 학습 데이터에 체인 오브 쏘트(Chain-of-Thought) 데이터를 많이 넣은 덕분이고, DPO(Direct Preference Optimization) 학습 기법도 적극 활용했다.

 

실사용 체감으로 보면, 8B 모델도 간단한 코딩 태스크는 충분히 처리하고, 70B부터는 GPT-3.5급 이상이 나온다. 405B는 GPT-4급이지만 VRAM 250GB 이상이 필요해 개인이 돌리기는 어렵고 사실상 기업용이다.

 

직접 Hermes 돌려보기

 

 

출처: Tri Pham: UX Designer

이론만 늘어놓으면 지루하니, 직접 돌려보는 법까지 정리한다. 각설하고 제일 쉬운 경로가 Ollama다.

 

Ollama로 Hermes 돌리기

 

Ollama가 설치돼 있다는 가정하에:

 

# Hermes 3 8B 모델 돌리기 (가장 가벼움)
ollama run hermes3

# 70B 모델 (VRAM 40GB+ 필요)
ollama run hermes3:70b

# 설치만 하고 나중에 쓰기
ollama pull hermes3

 

VRAM 요구량은 대략 다음과 같다. 8B 양자화 모델은 6~8GB라 RTX 3060급에서도 돌아간다. 70B 양자화는 40~48GB라 RTX 4090 한 장으로는 빠듯해 보통 2장을 묶고, 405B는 250GB 이상이라 A100 여러 장이 필수다. 집에서 처음 써보는 경우라면 8B부터 시작하는 것이 정신 건강에 좋다.

 

LM Studio에서 GGUF 파일로 돌리기

 

GUI가 편한 사람에게는 LM Studio가 답이다. Hugging Face의 NousResearch 페이지에서 TheBloke나 bartowski가 올린 Hermes GGUF 파일을 검색해 다운받고 LM Studio에 로드하면 끝난다. 양자화 레벨은 Q4_K_M이 용량·성능 밸런스가 제일 좋다고 느꼈다.

 

# Hugging Face transformers로 직접 부르기
from transformers import AutoModelForCausalLM, AutoTokenizer

model_name = "NousResearch/Hermes-3-Llama-3.1-8B"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name, device_map="auto")

messages = [{"role": "user", "content": "파이썬으로 피보나치 수열 짜줘"}]
inputs = tokenizer.apply_chat_template(messages, return_tensors="pt").to("cuda")
output = model.generate(inputs, max_new_tokens=512)
print(tokenizer.decode(output[0]))

 

이 코드를 그대로 돌리면 로컬에서 Hermes와 대화가 가능하다.

 

Hugging Face Inference API로 불러오기

 

GPU가 없어도 테스트만 해보고 싶다면 Hugging Face Inference API가 있다. 무료 티어가 있어 간단한 실험은 돈이 들지 않는다. 토큰을 발급받고 HTTP POST를 날리는 구조이고, 공식 문서에 예제가 잘 정리돼 있다.

 

Hermes를 써야 할 때 vs 말아야 할 때

 

 

출처: bytesrack.com

개인적으로 Hermes 3 70B를 두 달 정도 써보았고, 4의 8B도 돌려보았다. 솔직한 감상만 남긴다.

 

이럴 때 Hermes를 추천한다

 

회사 데이터를 외부로 내보낼 수 없는 환경이라면 선택지가 사실상 로컬 모델로 좁혀지는데, 이때 Hermes가 좋은 후보다. GPT-4 API 청구서 압박이 있어 GPU에 한 번 투자하고 무제한으로 쓰고 싶은 경우, 자사 도메인 데이터로 파인튜닝해 특화 모델을 만들고 싶은 경우에도 출발점으로 괜찮다.

 

조금 덜 뻔한 시나리오도 있다. 보안 연구나 의학 정보, 법률 자문처럼 상업 모델이 자꾸 얼버무리는 분야에서 Hermes는 검열이 덜한 답을 내는 편이다. 함수 호출(function calling) 학습이 잘 돼 있어 툴 사용 에이전트를 만들 때 베이스로 삼기에도 무난하다.

 

이럴 때는 다른 모델을 써라

 

반대 케이스도 꽤 많다. 학습 시점 이후의 최신 정보는 당연히 모르기 때문에, 뉴스나 시사 질문은 Perplexity나 ChatGPT 같은 검색 연동 모델이 훨씬 낫다.

 

한국어 특화 작업도 Hermes의 약점이다. 영어 중심으로 튜닝된 모델이라, 한국어 글쓰기나 한국 문화 맥락이 필요하다면 KoAlpaca, EEVE-Korean, HyperCLOVA X 쪽 결과물이 훨씬 자연스럽다. 텍스트 전용이라 이미지 생성·이해가 필요하다면 Llama 3.2 Vision이나 Qwen2-VL로 넘어가야 하고, 엣지 디바이스처럼 초경량 환경에서는 Phi-3 mini나 Gemma 2B가 더 맞는다.

 

가장 현실적인 이유도 빼놓으면 안 된다. 그냥 ChatGPT 월 2만원 내고 쓰는 것이 편하다면 그것이 답이다. Hermes를 돌리려면 GPU 값, 전기세, 운영 리소스가 모두 붙는데 이것이 의외로 싸지 않다. 모델만 무료지 인프라는 비싸다는 점을 반드시 감안해야 한다.

 

Hermes AI 모델이 아닌 "에르메스"를 찾아온 사람을 위한 짧은 정리

 

여기까지 읽다가 "아 나 가방 찾으러 온 건데"라고 생각할 사람을 위해 간단히 정리한다. 프랑스 럭셔리 브랜드 에르메스(Hermès)는 AI 모델 Hermes와 아무 상관이 없다. 에르메스는 1837년 설립된 가죽 제품 브랜드이고, 버킨백과 켈리백으로 유명하다. 스펠링은 둘 다 H-e-r-m-e-s이지만, 발음은 프랑스 쪽이 "에르메스"에 가깝고 AI 모델은 그리스 신 이름에서 따와 "허미즈"로 읽는다.

 

혹시 에르메스 브랜드 쪽을 찾던 경우라면 네이버에서 "에르메스"로 검색하는 것이 훨씬 빠르다. 리셀가, 매장 정보, 신상 정보가 거기서 잘 나온다.

 

요즘 주목받는 Hermes AI 모델, 결론부터 정리

 

Hermes AI 모델은 Nous Research가 만든 오픈소스 LLM이고, Llama 기반 파인튜닝이 중심인 시리즈다. Hermes 4로 오면서 일부 reasoning 벤치마크에서 GPT-4o와 1점 이내로 붙었고, 오픈웨이트라서 온프레미스 배포가 자유롭다. Ollama 한 줄이면 8B 모델은 집 컴퓨터에서도 돌아가고, 한국어 작업은 KoAlpaca나 EEVE가 더 나을 때가 많으니 용도에 맞춰 고르면 된다. 에르메스 브랜드와는 전혀 관련이 없다는 점은 여기까지 읽었다면 이제 확실할 것이다.

 

로컬 LLM을 처음 써보는 경우라면 Ollama를 깔고 8B부터 돌려 감을 잡는 것이 제일 빠른 길이다. 만족스러우면 70B로 올리고, 진짜 필요하면 405B 클러스터를 고민하면 된다. GPT 월 2만원도 나쁜 선택은 아니니 무조건 로컬이 답이라는 이야기는 당연히 아니다.

 

솔직히 나는 처음에 Hermes 3를 돌려놓고 "음, 이 정도면 GPT 구독을 해지할까" 싶었다가, 한국어로 긴 글을 쓰기 시작하자마자 포기하고 다시 ChatGPT Plus를 갱신했다. 어디에 쓸지가 정해져야 의미가 생기는 모델이다. 그래서 위의 "써야 할 때 vs 말아야 할 때"를 한 번 더 보고 결정하는 것을 권한다. 다음 글에서는 Hermes를 파인튜닝해 한국어 도메인 모델로 키우는 과정을 따로 정리해볼 생각이다.

728x90
반응형
Share Link
reply
«   2026/05   »
1 2
3 4 5 6 7 8 9
10 11 12 13 14 15 16
17 18 19 20 21 22 23
24 25 26 27 28 29 30
31