오픈 소스와 오픈 웨이트의 차이점

흔히 IT 관련 미디어를 보면, 메타 라마가 오픈소스라고 많이 적혀져 있다. 물론 이것은 메타가 그렇게 주장하고 있지만, 정통 인공지능 개발자들 사이에서는 이러한 메타 라마가 오픈소스인가 아닌가에 대한 개념 논쟁이 많이 벌어졌다. 이게 무슨 말이냐고 하면, 100% 풀 오픈 소스냐? 아니면 가중치만 공개한 모델이냐? 에 대한 논쟁이다. 우리가 흔히 오픈소스(OpenSource)라고 하는 말은, 누구나 자유롭게 활용, 수정, 재배포할 수 있는 라이선스”라는 의미로 쓰인다. 실제로는 OSI(Open Source Initiative)가 공인한 라이선스인지, 아니면 사용 제한 조항(예: 비영리 사용만 가능 등)이 있는 “준(準)오픈소스” 형태인지를 구분해야 한다. 그렇다면, 이에 대해 한 번 알아보자! 현재 LLM 중에서 OSI가 승인한 오픈소스 라이선스는 다음과 같다. 1. EleutherAI 계열 종류: GPT-Neo 시리즈, GPT-J-6B**, GPT-NeoX-20B, Pythia 등 라이선스: 보통 Apache-2.0 또는 MIT (둘 다 OSI 승인) 특징 학습 코드와 모델 가중치를 공개 상업적 이용, 2차 재배포, 파생 모델 작성 모두 가능 2. MosaicML MPT-7B (Base) 라이선스: 보통 Apache-2.0 또는 MIT (둘 다 OSI 승인) 특징 “Base” 체크포인트는 완전한 오픈소스 단, “Instruct”나 “Storywriter” 버전은 상업적 이용/2차 저작 제한이 있는 별도 라이선스(MPL)를 적용하므로 주의 3. Dolly 2.0 (Databricks) 라이선스: CC-BY-SA-3.0 (또는 CC-BY-SA-4.0) 계열 + 모델 가중치에 대한 Databricks 에서 자체 공지 CC-BY 계열은 창작물에 대한 자유로운 사용을 허용하지만, 엄밀히 말하면 "소프트웨어 라이선스”라기보다는 저작권 라이선스이므로 OSI 인증 라이선스는 아님 다만, Databricks 측에서 “상업적 활용 가능”을 포함해 공개했기 때문에, 사실상 오픈소스에 준하는 수준으로 많이 간주됨. 4. OpenLLaMa 라이선스: Apache-2.0 (OSI 승인) 특징 Meta의 LLaMA 아키텍처를 참조해 독자적으로 학습한 모델 원본 LLaMA는 비상용(non-commercial) 라이선스지만, OpenLLaMA는 전 과정을 공개해 제약 없이 활용 가능 그렇다면, 오픈 레일(RAIL), 즉, 오픈 라이선스(Open License)라고 부르는 가중치만 공개하는 준 오픈소스 모델(오픈웨이트 모델)은 다음과 같다. 1. BLOOM (BigScience) 라이선스: RAIL(Responsible AI License) 변형 특징 학계 및 연구 커뮤니티에 자유롭게 제공 특정 사용 사례(악의적 목적) 제한 등 추가 조항 존재 OSI 표준 오픈소스 라이선스는 아님 2. StarCoder/SantaCoder (BigCode) 라이선스: StarCoder License(오픈 RAIL 기반) 특징 모델 활용은 가능하나, 일부 사용 제한을 두는 준오픈소스 연구 목적, 비영리 등에는 자유롭지만, 상업적 활용 시 주의 3. Falcon (Technology Innovation Institute) 라이선스: TII Falcon License (Custom) 특징 비영리 사용은 자유롭지만, 상업적 사용 시 별도 조항 오픈소스(OSI 인증)로 인정되지는 않음 4. LLaMA 계열 (Meta) 라이선스: 연구용 비공개 라이선스 특징 LLaMA 자체는 “비상업적 연구 목적으로만” 접근 가능 Alpaca, Vicuna, WizardLM 등 파생 모델 역시 원저작권 이슈로 인해 공개 배포 시 일반적으로 “상업적 사용 불가” 조항이 붙음 결론 OSI 표준 오픈소스 라이선스(예: Apache 2.0, MIT) 로 완전히 공개된 LLM 예시는 아래와 같음 EleutherAI: GPT-Neo(125M~2.7B 등), GPT-J(6B), GPT-NeoX(20B), Pythia 시리즈 MPT-7B Base (MosaicML) OpenLLaMA (나비야AI, OpenLLaMA 프로젝트 등) (약간의 변칙이 있지만) Dolly 2.0(Databricks)도 상업적 활용 포함 넓게 공개되어 “오픈소스에 준한다”고 종종 언급됨 RAIL, TII License 등으로 배포되는 모델들은 일부 사용 제한이 있기 때문에, "오픈소스”라고 부르기엔 다소 애매"한 부분이 있음 예: BLOOM, StarCoder, Falcon 등 Meta LLaMA 계열은 공식적으로 완전한 오픈소스 라이선스를 적용하지 않았음. LLaMA 계열(Alpaca, Vicuna 등)은 “연구 목적 비공개 라이선스”(비상업용)로 배포로 "오픈소스"로 분류할 수 없음. 오픈 가중치(Weight)만 공개함. 공개 레포지토리에 올려두더라도, 저작권 이슈 상 “CC-BY-NC 4.0” 등 제약적 라이선스 표기를 많이 사용

May 6, 2025 - 08:17
 0
오픈 소스와 오픈 웨이트의 차이점

흔히 IT 관련 미디어를 보면, 메타 라마가 오픈소스라고 많이 적혀져 있다. 물론 이것은 메타가 그렇게 주장하고 있지만, 정통 인공지능 개발자들 사이에서는 이러한 메타 라마가 오픈소스인가 아닌가에 대한 개념 논쟁이 많이 벌어졌다. 이게 무슨 말이냐고 하면, 100% 풀 오픈 소스냐? 아니면 가중치만 공개한 모델이냐? 에 대한 논쟁이다.

우리가 흔히 오픈소스(OpenSource)라고 하는 말은, 누구나 자유롭게 활용, 수정, 재배포할 수 있는 라이선스”라는 의미로 쓰인다. 실제로는 OSI(Open Source Initiative)가 공인한 라이선스인지, 아니면 사용 제한 조항(예: 비영리 사용만 가능 등)이 있는 “준(準)오픈소스” 형태인지를 구분해야 한다. 그렇다면, 이에 대해 한 번 알아보자!

현재 LLM 중에서 OSI가 승인한 오픈소스 라이선스는 다음과 같다.

1. EleutherAI 계열

  • 종류: GPT-Neo 시리즈, GPT-J-6B**, GPT-NeoX-20B, Pythia 등
  • 라이선스: 보통 Apache-2.0 또는 MIT (둘 다 OSI 승인)
  • 특징
    • 학습 코드와 모델 가중치를 공개
    • 상업적 이용, 2차 재배포, 파생 모델 작성 모두 가능

2. MosaicML MPT-7B (Base)

  • 라이선스: 보통 Apache-2.0 또는 MIT (둘 다 OSI 승인)
  • 특징
    • “Base” 체크포인트는 완전한 오픈소스
    • 단, “Instruct”나 “Storywriter” 버전은 상업적 이용/2차 저작 제한이 있는 별도 라이선스(MPL)를 적용하므로 주의

3. Dolly 2.0 (Databricks)

  • 라이선스: CC-BY-SA-3.0 (또는 CC-BY-SA-4.0) 계열 + 모델 가중치에 대한 Databricks 에서 자체 공지
  • CC-BY 계열은 창작물에 대한 자유로운 사용을 허용하지만, 엄밀히 말하면 "소프트웨어 라이선스”라기보다는 저작권 라이선스이므로 OSI 인증 라이선스는 아님
  • 다만, Databricks 측에서 “상업적 활용 가능”을 포함해 공개했기 때문에, 사실상 오픈소스에 준하는 수준으로 많이 간주됨.

4. OpenLLaMa

  • 라이선스: Apache-2.0 (OSI 승인)
  • 특징
    • Meta의 LLaMA 아키텍처를 참조해 독자적으로 학습한 모델
    • 원본 LLaMA는 비상용(non-commercial) 라이선스지만, OpenLLaMA는 전 과정을 공개해 제약 없이 활용 가능

그렇다면, 오픈 레일(RAIL), 즉, 오픈 라이선스(Open License)라고 부르는 가중치만 공개하는 준 오픈소스 모델(오픈웨이트 모델)은 다음과 같다.

1. BLOOM (BigScience)

  • 라이선스: RAIL(Responsible AI License) 변형
  • 특징
    • 학계 및 연구 커뮤니티에 자유롭게 제공
    • 특정 사용 사례(악의적 목적) 제한 등 추가 조항 존재
    • OSI 표준 오픈소스 라이선스는 아님

2. StarCoder/SantaCoder (BigCode)

  • 라이선스: StarCoder License(오픈 RAIL 기반)
  • 특징
    • 모델 활용은 가능하나, 일부 사용 제한을 두는 준오픈소스
    • 연구 목적, 비영리 등에는 자유롭지만, 상업적 활용 시 주의

3. Falcon (Technology Innovation Institute)

  • 라이선스: TII Falcon License (Custom)
  • 특징
    • 비영리 사용은 자유롭지만, 상업적 사용 시 별도 조항
    • 오픈소스(OSI 인증)로 인정되지는 않음

4. LLaMA 계열 (Meta)

  • 라이선스: 연구용 비공개 라이선스
  • 특징
    • LLaMA 자체는 “비상업적 연구 목적으로만” 접근 가능
    • Alpaca, Vicuna, WizardLM 등 파생 모델 역시 원저작권 이슈로 인해 공개 배포 시 일반적으로 “상업적 사용 불가” 조항이 붙음

결론

  • OSI 표준 오픈소스 라이선스(예: Apache 2.0, MIT) 로 완전히 공개된 LLM 예시는 아래와 같음
    • EleutherAI: GPT-Neo(125M~2.7B 등), GPT-J(6B), GPT-NeoX(20B), Pythia 시리즈
    • MPT-7B Base (MosaicML)
    • OpenLLaMA (나비야AI, OpenLLaMA 프로젝트 등)
    • (약간의 변칙이 있지만) Dolly 2.0(Databricks)도 상업적 활용 포함 넓게 공개되어 “오픈소스에 준한다”고 종종 언급됨
  • RAIL, TII License 등으로 배포되는 모델들은 일부 사용 제한이 있기 때문에, "오픈소스”라고 부르기엔 다소 애매"한 부분이 있음
    • 예: BLOOM, StarCoder, Falcon 등
  • Meta LLaMA 계열은 공식적으로 완전한 오픈소스 라이선스를 적용하지 않았음.
    • LLaMA 계열(Alpaca, Vicuna 등)은 “연구 목적 비공개 라이선스”(비상업용)로 배포로 "오픈소스"로 분류할 수 없음. 오픈 가중치(Weight)만 공개함.
    • 공개 레포지토리에 올려두더라도, 저작권 이슈 상 “CC-BY-NC 4.0” 등 제약적 라이선스 표기를 많이 사용