카나나 나노 온디바이스 설치 가이드

한국어와 영어 모두에 강점을 보이는 ‘카나나 나노 2.1B’는 경량화·고효율을 목표로 설계된 양방향 한국어 특화 SLM으로, 온디바이스 추론을 염두에 둔 컴퓨팅 효율과 다양한 파생 버전(베이스·인스트럭트·임베딩 등) 제공이 특징이다. 연구·서비스 초기 검증용으로 특히 유용하다

카카오가 공개한 경량 언어 모델 라인업 중 2.1B 파라미터급 모델로, 한국어에서 경쟁력 있는 성능과 낮은 연산 비용을 동시에 달성했다. 온디바이스 활용 가능성을 열어 모바일·엣지 환경에서도 빠른 응답을 기대할 수 있도록 설계됐다.

한국어 성능 벤치마크와 활용 장면

KMMLU, HAE-RAE 등 한국어 중심 벤치마크에서 동급 대비 우수한 지표를 보이며, 질의응답·요약·대화형 에이전트·지식검색 보조 등 실사용 시나리오에 적합하다. 자세한 실험 구성과 수치는 해당 모델 카드의 성능 표에서 확인할 수 있다.

중간에 참고할 만한 자료로, 카나나의 설계 철학과 데이터 처리·프루닝·증류 등 기법을 정리한 기술 리포트에서 확인 할 수 있다

버전 구성과 라이선스 차이

2.1B 계열은 베이스·인스트럭트·임베딩·함수호출·RAG 등 다목적 버전이 제공된다. 초기 ‘나노’ 모델은 비상업적 CC-BY-NC-4.0, 개선판 ‘1.5’ 2.1B 인스트럭트는 Apache-2.0으로 공개돼 상업 활용 범위가 넓다. 배포 목적에 맞춰 버전·라이선스를 확인해 도입한다.

설치 방법과 실행 절차

Python 환경에서 torch, transformers 설치 후 허깅페이스에서 체크포인트를 불러 사용한다. GPU가 없더라도 저정밀 양자화로 프로토타입은 가능하나, 실서비스는 GPU/엣지 NPU 등 가속기를 권장한다. 모델 카드의 예제 코드와 의존성 표기를 기준으로 환경을 맞춘다.

온디바이스 AI 최적화 팁

모바일·PC 엣지 배포 시 컨텍스트 길이를 과도하게 늘리지 말고, 임베딩·함수호출·RAG 조합으로 토큰 소비를 줄인다. ‘1.5’ 2.1B는 기본 32K 컨텍스트(YaRN로 128K 확장)라 문서 처리·대화 연속성에 유리하다. 프롬프트 템플릿과 시스템 규칙을 고정해 지연과 변동성을 줄인다.

카나나 나노 2.1B 스펙 정리

항목	값	설명
파라미터 수	약 2.1B	2.09B 표기 기준
지원 언어	한국어·영어	한국어 최적화
공개 버전	Base·Instruct·Embedding·Function·RAG	용도별 선택
컨텍스트 길이	32K 토큰(1.5 기준)	YaRN로 128K 확장
라이선스	CC-BY-NC-4.0(나노), Apache-2.0(1.5)	목적별 확인
최초 공개일	2025-02-27	모델·리포트 동시 공개

유사 경량 모델 비교 정리

모델	파라미터	한국어 강점	주요 용도	특징 한줄
Kanana 2.1B	2.1B	상	온디바이스 대화·요약	한국어 최적화·경량
Kanana 1.5 2.1B	2.1B	상	함수호출·롱컨텍스트	32K 기본·Apache
Gemma 2 2B	2B	중	연구·서비스 초안	효율 지향 소형
Llama 3.2 3B	3B	중	다국어 베이스	생태계·자료 풍부
Phi-3 Mini	3.8B	중	온디바이스 코드보조	소형 대비 성능 우수

설치 단계 한눈에 보기

단계	명령/도구	예상 소요시간(분)	주의사항
환경 준비	Python 3.10+, venv	5~10	OS별 CUDA 호환 확인
라이브러리 설치	pip install torch, transformers	3~8	GPU·CPU 버전 구분
체크포인트 로드	`AutoTokenizer/Model` 사용	2~5	모델명 정확 입력
동작 확인	프롬프트 테스트	2~5	`max_new_tokens` 조정
최적화	4/8bit 양자화	10~20	품질·지연 균형 설정

카나나 나노 온디바이스 설치 가이드