대형 언어 모델이 그렇게 크지 않다면 더 좋을까요?

인공 지능 챗봇의 경우 일반적으로 클수록 좋습니다.

대화형 원본 텍스트를 생성하는 ChatGPT 및 Bard와 같은 대규모 언어 모델은 더 많은 데이터를 제공받을수록 향상됩니다. 매일 블로거들은 인터넷에 접속하여 기사 요약 앱, AI 생성 팟캐스트, 프로 농구와 관련된 모든 질문에 답할 수 있는 미세 조정 모델 등 최신 기술이 “모든 것을 바꿀” 방법을 설명합니다.

그러나 더 크고 더 유능한 AI를 만들기 위해서는 소수의 회사가 보유한 처리 능력이 필요하며 Google, Meta, OpenAI 및 Microsoft를 포함한 소규모 그룹이 기술에 대한 거의 완전한 통제권을 행사할 것이라는 우려가 커지고 있습니다.

또한 더 큰 언어 모델은 이해하기 더 어렵습니다. 블랙박스는 설계자나 해당 분야의 주요 인사들에 의해서도 종종 “블랙박스”로 묘사됩니다. 불안을 표명했다 ‌AI의 목표는 궁극적으로 우리의 목표와 일치하지 않을 수 있습니다. 클수록 좋다면 불투명하고 배타적입니다.

1월, 언어 이해에 중점을 둔 AI의 한 분야인 자연어 처리 분야에서 일하는 젊은 학자 그룹은 이 패러다임을 완전히 뒤집는 도전 과제를 발표했습니다. 이 그룹은 가장 발전된 대형 언어 모델에서 사용하는 데이터 세트의 1/10,000 미만인 데이터 세트를 사용하여 기능적 언어 모델을 만들도록 팀을 요청했습니다. 성공적인 미니 모델은 고급 모델만큼 기능이 있지만 훨씬 더 작고 접근하기 쉬우며 인간과 더 잘 어울립니다. 프로젝트 이름은 BabyLM Challenge입니다.

Johns Hopkins University의 컴퓨터 과학자이자 BabyLM의 조직자인 Aaron Mueller는 “우리는 사람들이 작게 생각하고 더 많은 사람들이 사용할 수 있는 효율적인 시스템을 구축하는 데 더 집중하도록 도전하고 있습니다.”라고 말했습니다.

ETH 취리히(ETH Zurich)의 컴퓨터 과학자이자 프로젝트의 또 다른 조직자인 Alex Warstadt는 다음과 같이 덧붙였습니다. 대화의 중심에.”

대규모 언어 모델은 주어진 문장이나 구문에서 다음 단어를 예측하도록 설계된 신경망입니다. 그들은 성적표, 웹사이트, 소설 및 신문에서 수집한 단어 모음을 사용하여 이 작업에 대해 훈련을 받습니다. 일반적인 모델은 예시 문구를 기반으로 추측한 다음 정답에 얼마나 근접하는지에 따라 스스로 조정합니다.

이 프로세스를 계속해서 반복함으로써 모델은 단어가 서로 어떻게 관련되는지에 대한 맵을 형성합니다. 일반적으로 모델이 훈련되는 단어가 많을수록 더 좋아집니다. 모든 구는 모델에 컨텍스트를 제공하며 더 많은 컨텍스트는 각 단어의 의미에 대한 보다 자세한 인상으로 해석됩니다. 2020년에 출시된 OpenAI의 GPT-3는 2000억 단어로 학습되었습니다. 2022년에 출시된 딥마인드의 친칠라가 1조로 훈련됐다.

ETH Zurich의 언어학자인 Ethan Wilcox에게 인간이 아닌 무언가가 언어를 생성할 수 있다는 사실은 흥미로운 기회를 제공합니다. AI 언어 모델을 사용하여 인간이 언어를 학습하는 방법을 연구할 수 있을까요?

예를 들어, Noam Chomsky의 초기 작업으로 거슬러 올라가는 영향력 있는 이론인 원주민주의는 인간이 언어가 작동하는 방식에 대한 타고난 이해를 가지고 있기 때문에 언어를 빠르고 효율적으로 배운다고 주장합니다. 그러나 언어 모델도 언어를 빠르게 배우고 언어가 작동하는 방식에 대한 선천적인 이해가 없는 것 같습니다.

문제는 언어 모델이 인간과 매우 다르게 학습한다는 것입니다. 인간은 신체, 사회생활, 풍부한 감각을 가지고 있다. 우리는 뿌리 덮개 냄새를 맡고, 깃털 날개를 느끼고, 문에 부딪히고, 페퍼민트를 맛볼 수 있습니다. 초기에 우리는 종종 글로 표현되지 않는 간단한 구어와 구문에 노출됩니다. 그래서 Wilcox 박사는 엄청나게 많은 글로 훈련된 후 언어를 생성하는 컴퓨터가 우리 자신의 언어 과정에 대해 많은 것을 말해 줄 수 있다고 결론지었습니다.

그러나 언어 모델이 젊은 인간이 접하는 단어에만 노출된다면 우리 자신의 능력에 대한 특정 질문을 해결할 수 있는 방식으로 언어와 상호 작용할 수 있습니다.

그래서 6명의 ‌동료들과 함께 Wilcox 박사, Mueller 박사, Warstadt 박사는 언어 모델을 인간의 이해에 약간 더 가깝게 하기 위해 BabyLM Challenge를 구상했습니다. 1월에 그들은 13세의 인간이 접하는 것과 같은 수의 단어(약 1억 개)로 언어 모델을 훈련할 팀을 요청했습니다. 후보 모델은 언어의 뉘앙스를 얼마나 잘 생성하고 포착하는지에 대해 테스트를 거쳐 승자가 선언됩니다.

McGill University의 언어학자인 Eva Portelance는 이 문제가 발표된 날 우연히 발견했습니다. 그녀의 연구는 종종 컴퓨터 과학과 언어학 사이의 모호한 경계에 걸쳐 있습니다. 1950년대 AI에 대한 첫 번째 시도는 컴퓨터에서 인간의 인지 능력을 모델링하려는 욕구에 의해 추진되었습니다. AI에서 정보 처리의 기본 단위는 “뉴런”이며, 1980년대와 90년대의 초기 언어 모델은 인간의 두뇌에서 직접 영감을 받았습니다. ‌

그러나 프로세서가 더욱 강력해지고 회사가 시장성 있는 제품을 개발하기 시작하면서 컴퓨터 과학자들은 막대한 양의 데이터에 대해 언어 모델을 훈련시키는 것이 심리학적으로 알려진 구조로 강제하는 것보다 종종 더 쉽다는 것을 깨달았습니다. 결과적으로 Portelance 박사는 “‌그들은 우리에게 인간과 같은 텍스트를 제공하지만 우리와 그들이 작동하는 방식 사이에는 아무런 관련이 없습니다‌.”라고 말했습니다.

인간의 마음이 어떻게 작동하는지 이해하는 데 관심이 있는 과학자들에게 이러한 대형 모델은 제한된 통찰력을 제공합니다. 그리고 엄청난 처리 능력이 필요하기 때문에 접근할 수 있는 연구자가 거의 없습니다. “엄청난 리소스를 보유한 소수의 산업 연구실만이 수조 단어에 대한 수십억 개의 매개변수로 모델을 교육할 수 있습니다.” 윌콕스가 말했다.

“아니면 짐을 실을 수도 있습니다.”라고 Mueller 박사가 덧붙였습니다. “이로 인해 현장 연구는 최근 약간 덜 민주적으로 느껴졌습니다.”

Portelance 박사는 BabyLM Challenge가 더 큰 언어 모델을 위한 군비 경쟁에서 한 걸음 더 나아가 더 접근하기 쉽고 직관적인 AI를 향한 발걸음으로 볼 수 있다고 말했습니다.

이러한 연구 프로그램의 잠재력은 더 큰 산업 연구소에서 무시되지 않았습니다. OpenAI의 최고 경영자 Sam Altman은 최근에 말했다 언어 모델의 크기를 늘리는 것이 지난 몇 년 동안 본 것과 같은 종류의 개선으로 이어지지는 않을 것입니다. 또한 Google 및 Meta와 같은 회사는 인간의 인지 구조를 기반으로 하는 보다 효율적인 언어 모델 연구에 투자하고 있습니다. 결국, 더 적은 데이터로 훈련될 때 언어를 생성할 수 있는 모델도 잠재적으로 확장될 수 있습니다.

성공적인 BabyLM이 얻을 수 있는 이익이 무엇이든 도전 뒤에 있는 사람들의 목표는 보다 학문적이고 추상적입니다. 상조차도 실용적인 것을 전복시킵니다. Wilcox 박사가 말했습니다.

Source link

You May Also Like