카나나 나노 온디바이스 설치 가이드

Spread the love

한국어와 영어 모두에 강점을 보이는 ‘카나나 나노 2.1B’는 경량화·고효율을 목표로 설계된 양방향 한국어 특화 SLM으로, 온디바이스 추론을 염두에 둔 컴퓨팅 효율과 다양한 파생 버전(베이스·인스트럭트·임베딩 등) 제공이 특징이다. 연구·서비스 초기 검증용으로 특히 유용하다

카나나 나노 온디바이스 설치 가이드

카나나 나노 온디바이스 설치 가이드

카나나 나노 2.1B 개요와 핵심 포인트

카카오가 공개한 경량 언어 모델 라인업 중 2.1B 파라미터급 모델로, 한국어에서 경쟁력 있는 성능과 낮은 연산 비용을 동시에 달성했다. 온디바이스 활용 가능성을 열어 모바일·엣지 환경에서도 빠른 응답을 기대할 수 있도록 설계됐다.

한국어 성능 벤치마크와 활용 장면

KMMLU, HAE-RAE 등 한국어 중심 벤치마크에서 동급 대비 우수한 지표를 보이며, 질의응답·요약·대화형 에이전트·지식검색 보조 등 실사용 시나리오에 적합하다. 자세한 실험 구성과 수치는 해당 모델 카드의 성능 표에서 확인할 수 있다.

중간에 참고할 만한 자료로, 카나나의 설계 철학과 데이터 처리·프루닝·증류 등 기법을 정리한 기술 리포트에서 확인 할 수 있다

버전 구성과 라이선스 차이

2.1B 계열은 베이스·인스트럭트·임베딩·함수호출·RAG 등 다목적 버전이 제공된다. 초기 ‘나노’ 모델은 비상업적 CC-BY-NC-4.0, 개선판 ‘1.5’ 2.1B 인스트럭트는 Apache-2.0으로 공개돼 상업 활용 범위가 넓다. 배포 목적에 맞춰 버전·라이선스를 확인해 도입한다.

설치 방법과 실행 절차

Python 환경에서 torch, transformers 설치 후 허깅페이스에서 체크포인트를 불러 사용한다. GPU가 없더라도 저정밀 양자화로 프로토타입은 가능하나, 실서비스는 GPU/엣지 NPU 등 가속기를 권장한다. 모델 카드의 예제 코드와 의존성 표기를 기준으로 환경을 맞춘다.

온디바이스 AI 최적화 팁

모바일·PC 엣지 배포 시 컨텍스트 길이를 과도하게 늘리지 말고, 임베딩·함수호출·RAG 조합으로 토큰 소비를 줄인다. ‘1.5’ 2.1B는 기본 32K 컨텍스트(YaRN로 128K 확장)라 문서 처리·대화 연속성에 유리하다. 프롬프트 템플릿과 시스템 규칙을 고정해 지연과 변동성을 줄인다.

카나나 나노 2.1B 스펙 정리

항목설명
파라미터 수약 2.1B2.09B 표기 기준
지원 언어한국어·영어한국어 최적화
공개 버전Base·Instruct·Embedding·Function·RAG용도별 선택
컨텍스트 길이32K 토큰(1.5 기준)YaRN로 128K 확장
라이선스CC-BY-NC-4.0(나노), Apache-2.0(1.5)목적별 확인
최초 공개일2025-02-27모델·리포트 동시 공개

유사 경량 모델 비교 정리

모델파라미터한국어 강점주요 용도특징 한줄
Kanana 2.1B2.1B온디바이스 대화·요약한국어 최적화·경량
Kanana 1.5 2.1B2.1B함수호출·롱컨텍스트32K 기본·Apache
Gemma 2 2B2B연구·서비스 초안효율 지향 소형
Llama 3.2 3B3B다국어 베이스생태계·자료 풍부
Phi-3 Mini3.8B온디바이스 코드보조소형 대비 성능 우수

설치 단계 한눈에 보기

단계명령/도구예상 소요시간(분)주의사항
환경 준비Python 3.10+, venv5~10OS별 CUDA 호환 확인
라이브러리 설치pip install torch, transformers3~8GPU·CPU 버전 구분
체크포인트 로드AutoTokenizer/Model 사용2~5모델명 정확 입력
동작 확인프롬프트 테스트2~5max_new_tokens 조정
최적화4/8bit 양자화10~20품질·지연 균형 설정

댓글 남기기

error: Content is protected !!