본문 바로가기
TREND/인공지능

데이터브릭스, 오픈소스기반 AI 돌리2.0 출시

by inniable 2023. 4. 17.

데이터브릭스, 오픈소스기반 AI 돌리2.0 출시

 

빅데이터 기업 데이터브릭스는 2주 전에 출시한 챗GPT급 기업용 언어 모델 '돌리(Dolly)'의 후속 버전인 '돌리 2.0'을 출시했습니다. 데이터브릭스가 발표한 돌리는 챗GPT와 유사하게 인간상호 작용이 가능한 소형언어모델(sLLM)의 인공지능입니다. LLM과 달리 막대한 비용이 투입될 필요도 없어, 맞춤형AI를 필요로하는 기업들에게 많은 도움이 될 것으로 생각합니다. 돌리 2.0에 대해 알아보겠습니다.

 

1. 돌리 2.0

2023년 4월 12일 데이터브릭스가 출시한 돌리 2.0은 무료로 사용할 수 있는 데이터셋에 대해 미세조정된 오픈소스 언어 모델로서 상업적 목적으로 사용 가능합니다. 사용자는 API 액세스 비용을 지불하거나 제3자와 데이터를 공유할 필요없이 독자적인 상용 애플리케이션에 사용할 수 있습니다.

 

2주전 발표된 돌리1.0는 엘류서AI에서 개발한 60억 매개변수의 오픈소스 언어 모델인 'GPT-J'를 기반으로 5만개의 데이터셋을 사용해 3시간 동안 미세조정해 구축한 소형 언어 모델(sLLM)입니다.

 

챗GPT의 1,750억개 매개 변수보다 훨씬 작은 이 모델은 더 작은 데이터셋과 훈련 시간에도 불구하고 챗GPT와 유사한 인간 상호작용 기능을 갖추고 있습니다. 다만 미세조정에 사용했던 데이터셋이 완전한 오픈소스 라이선스가 아니기 때문에 상업적으로 사용할 수 없었습니다.

 

돌리 2.0은 엘류서AI의 120억 매개변수의 [파이티아(Pythia)] 오픈소스 언어 모델을 기반으로 오픈소스 데이터셋인 [데이터브릭스-돌리-15k(databricks-dolly-15k)]에 대해 미세조정후 구축한 sLLM입니다. [데이터브릭스-돌리-15k]는 수천명의 데이터브릭스 직원들이 직접 생성한 1만5천개의 레코드로 구성된 데이터셋이며, 학술 또는 상업용 애플리케이션을 포함한 모든 목적으로 사용, 수정 및 확장할 수 있습니다.

 

따라서 돌리 2.0은 모델과 훈련 데이터를 모두 오픈소스로 공개함으로써 기업들이 상업적으로 무제한 사용 가능합니다.

2. 무료로 상업용 사용가능한 AI

챗GPT와 같은 LLM모델의 AI는 투입된 비용이 너무 크고, 모델을 만든다고 하더라도 학습에 걸리는 시간이 매우 오래걸립니다. 돌리와 같은 sLLM은 투입비용도 작고 학습시간도 빠릅니다. 게다가 데이터베이스가 이번에 공개한 돌리2.0은 오픈소스 기반으로 모든 사용자가 무료로 사용할 수 있습니다.

 

알리 고지 데이터브릭스 CEO는 '이전 모델과 달리 돌리 2.0은 상업적 사용을 허용하는 라이센스를 제공한다' 라고 밝혔고, '이는 기업이 독점 데이터셋을 사용하여 돌리 2.0을 조정, 개발 및 사용할 수 있음을 의미한다. 이러한 데이터셋을 타사 공급업체에 제공할 필요가 없으며 기존 모델에서 금지된 방식으로 모델을 수익화할 수 있다. 물론 사람들이 데이터브릭스에서 모델을 교육하기를 바라지만 이러한 모델과 데이터셋은 다른 곳에서도 사용할 수 있다'고 설명하였습니다. 또, 데이터브릭스는 '돌리 같은 모델들이 LLM을 민주화하는데 도움이 될 것이며, 소수 기업들만 감당할 수 있는 것에서 모든 회사들이, 그들 제품을 개선하기 위해 소유하고 최적화할 수 있도록 해줄 것이다'라고 하였습니다.

 

챗GPT에 열광하고 있지만, 구글과 같이 오픈소스로 등장한 돌리 2.0의 무한한 성장을 기대해 보겠습니다.

데이터브릭스 돌리 2.0
데이터브릭스 돌리2.0

반응형

'TREND > 인공지능' 카테고리의 다른 글

구글 인공지능조직 통합 개편  (1) 2023.04.27
구글의 인공지능  (0) 2023.04.26
자율인공지능 개발 현황  (1) 2023.04.11
자율인공지능 두번째  (0) 2023.04.10
자율인공지능 첫번째  (0) 2023.04.09