데이터 흐름 촉진: 암호화 기술의 도움으로 AI 데이터 훈련의 병목 현상을 해결하는 방법은 무엇입니까? -(1)

이미지에서 신중하게 선별된 참조를 모두 찾을 수 있는지 확인하세요.
지난 2년 동안 상대적으로 알려지지 않은 스타트업 OpenAI가 ChatGPT라는 챗봇 애플리케이션을 출시한 이후 AI는 그림자에서 벗어나 주목을 받았습니다. 우리는 기계지능이 우리 삶에 스며드는 과정에서 중요한 시점에 있습니다. 이러한 인텔리전스를 제어하기 위한 경쟁이 심화됨에 따라 인텔리전스 개발을 주도하는 데이터에 대한 수요도 증가하고 있습니다. 이것이 이 글의 주제이다.
우리는 AI 기업이 필요로 하는 데이터의 규모와 긴급성, 그리고 이를 획득하는 데 직면하는 문제에 대해 논의합니다. 우리는 이러한 만족할 줄 모르는 수요가 우리가 사랑하는 인터넷과 수십억 명의 기여자를 어떻게 위협하는지 살펴봅니다. 마지막으로 이러한 문제와 고민에 대한 해결책을 제시하기 위해 암호화폐를 활용하는 몇몇 스타트업을 소개합니다.
시작하기 전 간단한 참고 사항: 이 게시물은 모든 AI 시스템이 아닌 LLM(대형 언어 모델) 교육의 관점에서 작성되었습니다. 이런 이유로 나는 종종 "AI"와 "LLM"을 같은 의미로 사용합니다.
데이터 표시
LLM에는 컴퓨팅 성능, 에너지, 데이터라는 세 가지 주요 리소스가 필요합니다. 많은 자본을 바탕으로 기업, 정부, 스타트업이 이러한 자원을 놓고 경쟁하고 있습니다. 세 가지 중에서 컴퓨팅 성능 경쟁이 가장 눈에 띄었습니다. 부분적으로는 Nvidia의 급속한 주가 상승 때문이었습니다.

LLM 교육에는 다수의 특수 그래픽 처리 장치(GPU), 특히 NVIDIA의 A100, H100 및 곧 출시될 B100 모델이 필요합니다. 이러한 컴퓨팅 장치는 Amazon이나 지역 컴퓨터 상점에서 구입할 수 있는 것이 아닙니다. 대신 수만 달러의 비용이 듭니다. NVIDIA는 AI 연구소, 스타트업, 데이터 센터, 하이퍼스케일 고객 간에 이러한 리소스를 할당하는 방법을 결정합니다.
ChatGPT가 출시된 후 18개월 동안 GPU에 대한 수요가 공급을 훨씬 앞지르며 대기 시간이 최대 11개월에 달했습니다. 그러나 스타트업이 문을 닫고 훈련 알고리즘과 모델 아키텍처가 개선되고 다른 회사가 특수 칩을 출시하고 NVIDIA가 생산을 확대함에 따라 공급 및 수요 역학이 정상화되고 가격이 하락하고 있습니다.
둘째는 에너지이다. 데이터 센터에서 GPU를 실행하려면 많은 에너지가 필요합니다. 일부 추정에 따르면 2030년까지 데이터 센터는 세계 에너지의 4.5%를 소비할 것으로 예상됩니다. 이러한 급증하는 수요로 인해 기존 전력망에 압박이 가해지면서 기술 기업들은 대체 에너지 솔루션을 모색하고 있습니다. 아마존은 최근 원자력 발전소로 구동되는 데이터 센터 캠퍼스를 6억 5천만 달러에 구입했습니다. Microsoft는 원자력 기술 이사를 고용했습니다. OpenAI의 Sam Altman은 Helion, Exowatt 및 Oklo와 같은 에너지 스타트업을 지원했습니다.
AI 모델 훈련의 관점에서 볼 때 에너지와 컴퓨팅 능력은 단지 상품일 뿐입니다. H100 대신 B100을 선택하거나 기존 에너지 대신 원자력을 선택하면 훈련 과정이 더 저렴하고 빠르며 효율적이 될 수 있지만 모델 품질에는 영향을 미치지 않습니다. 즉, 가장 똑똑하고 인간과 가장 유사한 AI 모델을 만들기 위한 경쟁에서 에너지와 컴퓨팅 능력은 결정적인 요소가 아니라 필수 요소일 뿐입니다.
핵심 자원은 데이터입니다.
James Betker는 OpenAI의 연구 엔지니어입니다. 그는 자신의 설명에 따르면 누구라도 훈련할 권리가 있는 것보다 더 많은 생성 모델을 훈련했습니다. 그는 블로그 게시물에서 "동일한 데이터 세트에서 충분히 오랫동안 훈련하면 충분한 가중치와 훈련 시간을 갖춘 거의 모든 모델이 결국 동일한 지점으로 수렴할 것"이라고 언급했습니다. 이는 하나의 AI 모델을 다른 AI 모델과 구별하는 요소가 데이터 세트이지 다른 것이 아니라는 것을 의미합니다.
모델을 "ChatGPT", "Claude", "Mistral" 또는 "Lambda"라고 부를 때 해당 모델의 아키텍처, 사용된 GPU 또는 소비된 에너지에 대해 말하는 것이 아니라 훈련된 데이터 세트에 대해 이야기하는 것입니다.
데이터가 AI 훈련의 음식이라면 모델은 그들이 먹는 음식입니다.
최첨단 생성 모델을 훈련하려면 얼마나 많은 데이터가 필요합니까? 대답은 많습니다.
출시된 지 1년이 넘은 지금도 최고의 대규모 언어 모델로 평가받고 있는 GPT-4는 약 12조 개의 토큰(또는 약 9조 단어)을 사용해 학습됐다. 이 데이터는 Wikipedia, Reddit, Common Crawl(웹 크롤링 데이터의 무료 공개 저장소), 백만 시간이 넘는 YouTube 데이터, GitHub 및 Stack Overflow와 같은 코드 플랫폼을 포함하여 공개적으로 사용 가능한 인터넷을 크롤링하여 얻은 것입니다.
데이터가 많다고 생각된다면 잠시만 기다려주세요. 생성 AI에는 "친칠라 스케일링 법칙"이라는 개념이 있습니다. 이는 주어진 컴퓨팅 예산에 대해 더 작은 데이터 세트에서 더 큰 모델을 훈련하는 것보다 더 큰 데이터 세트에서 더 작은 모델을 훈련하는 것이 더 효율적이라는 것을 의미합니다. AI 회사가 GPT-5 및 Llama-4와 같은 차세대 AI 모델을 훈련하는 데 사용할 것으로 예상되는 컴퓨팅 리소스를 추정하면 이러한 모델에는 5~6배 더 많은 컴퓨팅 성능이 필요할 것으로 예상됩니다. 훈련을 위해 최대 100조 개의 토큰을 사용합니다.

공공 인터넷 데이터의 상당 부분이 이미 스크랩, 색인화되어 기존 모델을 훈련하는 데 사용되고 있는데, 추가 데이터는 어디에서 나올까요? 이는 AI 기업들의 최첨단 연구 문제가 됐다. 두 가지 해결책이 있습니다. 하나는 합성 데이터, 즉 인간이 아닌 LLM이 직접 생성한 데이터를 생성하는 것입니다. 그러나 모델을 더 스마트하게 만드는 데 있어 이 데이터의 유용성은 테스트되지 않았습니다.
또 다른 접근 방식은 고품질 데이터를 종합적으로 생성하는 대신 단순히 고품질 데이터를 찾는 것입니다. 그러나 추가 데이터를 얻는 것은 어려운 일이며, 특히 AI 기업이 직면한 문제가 미래 모델의 훈련뿐만 아니라 기존 모델의 효율성까지 위협할 때 더욱 그렇습니다.
첫 번째 데이터 문제는 법적 문제와 관련이 있습니다. AI 회사들은 "공개적으로 이용 가능한 데이터"를 사용한다고 주장하지만, 그 중 대부분은 저작권으로 보호됩니다. 예를 들어 Common Crawl 데이터세트에는 The New York Times 및 The Associated Press와 같은 출판물의 수백만 개의 기사와 기타 저작권 자료가 포함되어 있습니다.
일부 출판물과 창작자들은 저작권과 지적재산권 침해를 주장하며 AI 기업을 상대로 법적 조치를 취하고 있다. New York Times는 "The New York Times의 독특하고 가치 있는 작업을 불법적으로 복사하고 사용"한 혐의로 OpenAI와 Microsoft를 고소했습니다. 한 프로그래머 그룹이 인기 있는 AI 프로그래밍 도우미인 GitHub Copilot을 교육하기 위해 오픈 소스 코드를 사용하는 것이 합법성에 이의를 제기하는 집단 소송을 제기했습니다.
코미디언 사라 실버만(Sarah Silverman)과 작가 폴 트렘블레이(Paul Tremblay)도 자신의 작품을 허가 없이 사용한 AI 회사를 고소했습니다.
다른 사람들은 AI 회사와 협력하여 변화를 수용하고 있습니다. Associated Press, Financial Times 및 Axel Springer는 모두 OpenAI와 콘텐츠 라이선스 계약을 체결했습니다. Apple은 Condé Nast 및 NBC와 같은 언론 기관과 유사한 거래를 모색하고 있습니다. Google은 모델 훈련을 위한 API 액세스 대가로 Reddit에 연간 6천만 달러를 지불하기로 합의했으며 Stack Overflow는 OpenAI와 비슷한 계약을 맺었습니다. 메타는 출판사 사이먼 앤 슈스터(Simon & Schuster) 인수를 노골적으로 고려한 것으로 알려졌다.
이러한 합의는 AI 기업이 직면한 두 번째 문제인 개방형 웹 폐쇄와 일치합니다.
인터넷 포럼과 소셜 미디어 사이트는 AI 회사가 플랫폼 데이터를 사용하여 모델을 훈련함으로써 가져오는 가치를 인식했습니다. Reddit은 Google(그리고 향후 다른 AI 회사와도)과 합의하기 전에 이전에 무료였던 API에 대한 비용을 청구하기 시작했고 인기 있는 타사 클라이언트를 종료했습니다. 마찬가지로 Twitter는 API에 대한 액세스를 제한하고 가격을 인상했으며 Elon Musk는 Twitter 데이터를 사용하여 자신의 AI 회사인 xAI의 모델을 교육합니다.
모든 사람이 무료로 소비할 수 있는(그리고 광고를 통해 수익을 창출하는) 콘텐츠를 생산하는 소규모 출판물, 팬픽션 포럼 및 인터넷의 기타 틈새 코너도 이제 폐쇄되고 있습니다. 한때 인터넷은 모든 사람이 자신의 고유한 관심사와 특징을 공유하는 부족을 찾을 수 있는 마법의 온라인 공간으로 상상되었습니다. 그 마법이 서서히 사라지는 것 같아요.
소송 위협의 증가, 수백만 달러 규모의 콘텐츠 거래, 공개 웹 폐쇄는 두 가지 의미를 갖습니다.
1. 첫째, 데이터 전쟁은 기술 대기업에 크게 유리하게 기울어져 있습니다. 스타트업과 소규모 기업은 법적 위험 없이 이전에 사용 가능한 API에 액세스할 수도 없고 API 사용 권한을 구매하는 데 필요한 비용도 감당할 수 없습니다. 이는 부자가 최고의 데이터를 구매하여 최고의 모델을 만들고 더욱 부자가 될 수 있는 명백히 중앙 집중화된 특성을 가지고 있습니다.
2. 둘째, 사용자 제작 콘텐츠 플랫폼의 비즈니스 모델은 점점 더 사용자에게 불리하게 변하고 있습니다. Reddit 및 Stack Overflow와 같은 플랫폼은 수백만 명의 무급 창작자와 관리자의 기여에 의존합니다. 그러나 이러한 플랫폼이 AI 회사와 수백만 달러 규모의 거래를 할 때 판매할 데이터가 없는 사용자에게 보상이나 허가를 요청하지 않습니다.
Reddit과 Stack Overflow는 이러한 결정으로 인해 상당한 사용자 이탈을 경험했습니다. 연방거래위원회(FTC)는 또한 AI 모델 훈련에 사용하기 위해 외부 조직에 사용자 게시물을 판매, 라이선스 부여 및 공유하는 Reddit의 관행에 대한 조사를 시작했습니다.
이러한 문제는 차세대 AI 모델 교육과 인터넷 콘텐츠의 미래에 대한 관련 질문을 제기합니다. 현재 상황으로는 미래가 밝아 보이지 않습니다. 암호화 솔루션이 소규모 기업과 인터넷 사용자를 위한 공정한 경쟁의 장을 마련하고 이러한 문제 중 일부를 해결하는 데 도움이 될 수 있습니까?
코인올백 트위터
영희에게 코인 인증하고 코인올백 심화방 입장하기
|