데이터 흐름 촉진: 암호화 기술의 도움으로 AI 데이터 훈련의 병목 현상을 해결하는 방법은 무엇입니까? -(2)

2024. 6. 1. 05:01게시판

데이터 파이프라인

AI 모델을 훈련하고 유용한 애플리케이션을 만드는 것은 수개월 간의 계획, 리소스 할당 및 실행이 필요한 복잡하고 비용이 많이 드는 작업입니다. 이러한 프로세스는 각각 목적과 데이터 요구 사항이 다른 여러 단계로 구성됩니다.

암호화가 더 큰 AI 퍼즐에 어떻게 적용되는지 이해하기 위해 이러한 단계를 분석해 보겠습니다.

사전 훈련

사전 교육은 LLM 교육 프로세스에서 첫 번째이자 가장 리소스 집약적인 단계이며 모델의 기초를 형성합니다. 이 단계에서 AI 모델은 세상에 대한 일반적인 지식과 언어 사용 정보를 캡처하기 위해 레이블이 지정되지 않은 대량의 텍스트에 대해 훈련됩니다. GPT-4가 12조 개의 토큰을 사용하여 훈련되었다고 말할 때 이는 사전 훈련에 사용된 데이터를 의미합니다.

사전 교육이 LLM의 기본인 이유를 이해하려면 LLM 작동 방식에 대한 높은 수준의 개요가 필요합니다. 이는 단순화된 개요일 뿐입니다. Jon Stokes의 훌륭한 기사, Andrej Karpathy의 재미있는 비디오 또는 Stephen Wolfram의 훌륭한 책에서 더 자세한 설명을 찾을 수 있습니다.

LLM은 Next-Token Prediction이라는 통계 기술을 사용합니다. 간단히 말해서 일련의 토큰(즉, 단어)이 주어지면 모델은 다음으로 가능성이 가장 높은 토큰을 예측하려고 시도합니다. 이 과정은 완전한 반응을 형성하기 위해 반복됩니다. 따라서 대규모 언어 모델을 "완성 기계"로 생각할 수 있습니다.

예를 들어 이것을 이해해 봅시다.

내가 ChatGPT에 "태양이 어떤 방향에서 떠오르나요?"라고 물으면 먼저 "the"라는 단어를 예측한 다음 "sunises from the East"라는 문장의 각 단어를 차례로 예측합니다. 그런데 이러한 예측은 어디서 나오는 걸까요? ChatGPT는 "the sunrises from" 다음에 "the West", "the North" 또는 "Amsterdam"이 아닌 "the East"가 와야 한다고 결정합니까? 즉, "동쪽"이 다른 옵션보다 통계적으로 더 가능성이 높다는 것을 어떻게 알 수 있습니까?

그 해답은 대량의 고품질 훈련 데이터로부터 통계적 패턴을 학습하는 것입니다. 인터넷에 있는 모든 텍스트를 고려하면 "해는 동쪽에서 뜬다" 또는 "해는 서쪽에서 뜬다" 중 무엇이 더 많이 나타날 것입니까? 후자는 문학적 은유("해가 서쪽에서 뜬다고 믿는 것만큼 우스꽝스럽습니다") 또는 다른 행성에 대한 논의(예: 태양이 서쪽에서 뜨는 금성)와 같은 특정 맥락에서 나타날 수 있습니다. 그러나 일반적으로 전자가 더 일반적입니다.

LLM은 다음 단어를 반복적으로 예측함으로써 일반적인 세계관(우리가 상식이라고 부르는 것)과 언어 규칙 및 패턴에 대한 이해를 발전시킵니다. LLM을 생각하는 또 다른 방법은 이를 인터넷의 압축 버전으로 생각하는 것입니다. 이는 또한 데이터가 풍부하고(선택할 수 있는 패턴이 많음) 고품질(패턴 학습의 정확성을 높이기 위해)이 필요한 이유를 이해하는 데도 도움이 됩니다.

그러나 앞서 논의한 것처럼 AI 회사는 더 큰 모델을 교육하기 위한 데이터가 부족합니다. 교육 데이터 요구 사항은 개방형 인터넷에서 새로운 데이터가 생성되는 것보다 훨씬 빠르게 증가하고 있습니다. 소송이 다가오고 주요 포럼이 폐쇄되면서 AI 회사는 심각한 문제에 직면해 있습니다.

이 문제는 Reddit과 같은 독점 데이터 제공업체와 수백만 달러 규모의 거래를 성사시킬 여력이 없는 소규모 회사의 경우 더욱 악화됩니다.

이는 이러한 데이터 문제를 해결하는 것을 목표로 하는 분산형 주거용 프록시 제공업체인 Grass를 소개합니다. 그들은 스스로를 “AI를 위한 데이터 레이어”라고 부릅니다. 먼저 주거용 프록시 공급자가 무엇인지 이해해 봅시다.

인터넷은 훈련 데이터의 가장 좋은 소스이며, 인터넷을 스크랩하는 것은 기업이 이 데이터를 얻기 위해 선호하는 방법입니다. 실제로 스크래핑 소프트웨어는 규모, 편의성 및 효율성을 위해 데이터 센터에서 호스팅됩니다. 그러나 귀중한 데이터를 보유한 기업은 (유료를 받지 않는 한) AI 모델을 훈련하는 데 데이터가 사용되는 것을 원하지 않습니다. 이러한 제한을 시행하기 위해 알려진 데이터 센터의 IP 주소를 차단하여 대규모 스크래핑을 방지하는 경우가 많습니다.

이것이 바로 주거용 프록시 제공업체가 유용한 곳입니다. 웹 사이트는 귀하와 저와 같은 일반 인터넷 사용자의 연결이 아닌 알려진 데이터 센터의 IP 주소만 차단하므로 인터넷 연결 또는 주거용 인터넷 연결이 중요합니다. 주거용 프록시 제공업체는 수백만 개의 연결을 집계하여 AI 회사의 데이터를 대규모로 수집합니다.

그러나 중앙화된 주거용 프록시 제공업체는 비밀리에 운영됩니다. 그들은 종종 자신의 의도가 불분명합니다. 사용자는 제품이 대역폭을 사용하고 있다는 것을 알고 있으면 공유를 꺼릴 수 있습니다. 더 나쁜 것은 제품이 사용하는 대역폭에 대한 보상을 요구할 수 있으며, 이로 인해 이익이 감소할 수도 있습니다.

수익을 보호하기 위해 주거용 프록시 제공업체는 대역폭을 많이 소모하는 코드를 모바일 유틸리티 앱(계산기, 음성 녹음기 등), VPN 제공업체, 소비자용 TV 화면 보호기 등 널리 배포된 무료 애플리케이션에 피기백합니다. 사용자는 무료 제품을 받고 있다고 생각하지만 실제로는 제3자 주거용 공급자가 대역폭을 소비하고 있습니다(이러한 세부 정보는 거의 읽히지 않는 서비스 약관에 묻혀 있는 경우가 많습니다).

결국 이 데이터 중 일부는 AI 회사에 전달되어 AI 회사는 이를 사용하여 모델을 훈련하고 스스로 가치를 창출합니다.

자신의 주거용 프록시 제공업체를 운영하는 동안 Andrej Radonjic은 이러한 관행의 비윤리적 성격과 이것이 사용자에게 얼마나 불공평한지 깨달았습니다. 그는 암호화폐의 진화를 보고 보다 공정한 솔루션을 만드는 방법을 확인했습니다. 이것이 2022년 후반에 Grass가 설립된 맥락이었습니다. 몇 주 후 ChatGPT가 출시되어 세상을 바꾸고 Grass를 올바른 장소와 시간에 배치했습니다.

다른 주거용 프록시 제공업체가 사용하는 은밀한 전술과 달리 Grass는 AI 모델 훈련 목적으로 사용자에게 대역폭 사용량을 명시적으로 알립니다. 그 대가로 사용자는 직접 보상을 받습니다. 이 모델은 주거용 프록시 공급자의 운영 방식을 혼란에 빠뜨립니다. 자발적으로 대역폭을 제공하고 네트워크의 일부 소유자가 됨으로써 사용자는 수동적인 참여자에서 적극적인 옹호자로 이동하여 네트워크의 신뢰성을 향상시키고 AI가 생성하는 가치의 혜택을 누릴 수 있습니다.

잔디의 성장은 인상적이었습니다. 2023년 6월 출시 이후 브라우저 확장 프로그램이나 모바일 앱을 설치하여 노드를 실행하고 대역폭에 기여하는 활성 사용자가 200만 명이 넘습니다. 이러한 성장은 매우 성공적인 추천 프로그램 덕분에 외부 마케팅 비용 없이 달성되었습니다.

Grass의 서비스를 이용하면 대규모 AI 연구소, 오픈소스 스타트업 등 모든 종류의 기업이 저렴한 비용으로 크롤링된 훈련 데이터를 얻을 수 있습니다. 동시에 모든 일반 사용자는 인터넷 연결 공유에 대한 대가를 받고 성장하는 AI 경제의 일부가 됩니다.

원시 크롤링 데이터 외에도 Grass는 고객에게 몇 가지 추가 서비스를 제공합니다.

첫째, 구조화되지 않은 웹 페이지를 AI 모델이 처리하기 쉬운 구조화된 데이터로 변환합니다. 데이터 정리라고 하는 이 단계는 일반적으로 AI 연구소에서 수행하는 리소스 집약적인 작업입니다. Grass는 구조화되고 깔끔한 데이터 세트를 제공함으로써 고객에 대한 가치를 향상시킵니다. 또한 Grass는 데이터 크롤링, 준비 및 레이블 지정 프로세스를 자동화하기 위해 오픈 소스 LLM을 교육했습니다.

둘째, Grass는 부인할 수 없는 출처 증명이 포함된 데이터 세트를 번들로 제공합니다. AI 모델을 위한 고품질 데이터의 중요성을 고려할 때, 데이터 세트가 악의적인 웹사이트나 주거용 프록시 제공업체에 의해 변조되지 않도록 하는 것이 AI 회사에 매우 중요합니다.

이 문제의 심각성은 Meta, IBM, Walmart를 포함한 20개 이상의 회사로 구성된 비영리 그룹인 Data & Trust Alliance와 같은 조직이 형성되어 조직이 데이터 세트가 올바른지 여부를 결정하는 데 도움이 되는 데이터 출처 표준을 만들기 위해 협력하고 있는 이유입니다. 적절하고 신뢰할 수 있습니다.

그래스(Grass)도 비슷한 조치를 취하고 있다. Grass 노드가 웹페이지를 스크랩할 때마다 해당 웹페이지의 출처를 확인하는 메타데이터도 기록합니다. 이러한 출처 증명은 블록체인에 저장되며 클라이언트(사용자와 추가로 공유할 수 있음)와 공유됩니다.

Grass는 처리량이 가장 높은 블록체인 중 하나인 Solana를 기반으로 구축하고 있지만 L1에 각 스크랩의 출처를 저장하는 것은 불가능합니다. 따라서 Grass는 ZK 프로세서를 사용하여 출처 증명을 일괄 처리한 다음 이를 Solana에 게시하는 롤업(Solana 최초 중 하나)을 구축하고 있습니다. Grass가 "AI용 데이터 레이어"라고 부르는 이 롤업은 그들이 스크랩하는 모든 데이터에 대한 데이터 원장이 됩니다.

Grass의 Web 3 우선 접근 방식은 중앙 집중식 주거용 프록시 제공업체에 비해 몇 가지 장점을 제공합니다. 첫째, 보상을 사용하여 사용자가 대역폭을 직접 공유하도록 장려함으로써 AI에서 생성된 가치를 보다 공정하게 배포합니다(또한 앱 개발자에게 코드를 번들로 묶는 데 드는 비용을 절약함). 둘째, 고객에게 '합법적인 트래픽'을 제공하기 위해 프리미엄을 청구할 수 있는데, 이는 업계에서 매우 가치 있는 일입니다.

"합법적인 트래픽" 측면에서 작동하는 또 다른 프로토콜은 Masa입니다. 이 네트워크를 통해 사용자는 Reddit, Twitter 또는 TikTok과 같은 소셜 미디어 플랫폼에 대한 로그인 정보를 전달할 수 있습니다. 그런 다음 네트워크의 노드는 이러한 플랫폼에서 상황에 맞는 업데이트를 수집합니다. 이 모델의 장점은 수집된 데이터가 일반 사용자가 소셜 미디어 플랫폼에서 보는 것과 동일하다는 것입니다. 실시간으로 입소문이 날 것 같은 정서나 콘텐츠를 설명하는 풍부한 데이터 세트를 얻을 수 있습니다.

이러한 데이터 세트에는 두 가지 주요 용도가 있습니다.

1. 금융 - 수천 명의 사람들이 소셜 미디어 플랫폼에서 보는 내용을 볼 수 있다면 이 데이터를 기반으로 거래 전략을 개발할 수 있습니다. 감정 데이터를 활용하는 자율 에이전트는 Masa의 데이터 세트에서 훈련될 수 있습니다.

2. 소셜 - AI 동반자(또는 Replika와 같은 도구)의 출현은 인간 대화를 모방하는 데이터 세트가 필요하다는 것을 의미합니다. 이러한 대화도 최신 상태여야 합니다. Masa의 데이터 스트림은 최신 Twitter 트렌드에 대해 의미 있게 토론할 수 있는 에이전트를 교육하는 데 사용될 수 있습니다.

Masa의 접근 방식은 사용자 동의를 받아 Twitter와 같은 폐쇄된 환경에서 정보를 가져와 개발자가 애플리케이션을 구축할 수 있도록 해당 정보를 제공하는 것입니다. 데이터 수집에 대한 이러한 사회적 우선 접근 방식을 통해 지역 언어를 중심으로 데이터 세트를 구축할 수도 있습니다.

예를 들어, 힌디어를 말하는 봇은 힌디어로 운영되는 소셜 네트워크에서 가져온 데이터를 사용할 수 있습니다. 이러한 네트워크가 열어주는 응용 프로그램은 아직 탐색되지 않았습니다.

코인올백 트위터
영희에게 코인 인증하고 코인올백 심화방 입장하기