게시판

데이터 흐름 촉진: 암호화 기술의 도움으로 AI 데이터 훈련의 병목 현상을 해결하는 방법은 무엇입니까? -(4)

코인올백 2024. 6. 1. 05:02

전문적인 미세 조정

사전 훈련 및 정렬 단계를 완료하면 기본 모델이라고 부르는 것이 만들어집니다. 기본 모델은 세상이 어떻게 작동하는지에 대한 일반적인 이해를 갖고 있으며 광범위한 주제에 대해 인간과 같은 유창한 대화를 나눌 수 있습니다. 또한 언어 이해력이 뛰어나 사용자가 이메일, 이야기, 시, 에세이 및 노래를 쓰는 데 쉽게 도움을 줄 수 있습니다.

ChatGPT를 사용하면 기본 모델인 GPT-4와 상호 작용하게 됩니다.

기본 모델은 범용 모델입니다. 그들은 수백만 가지 주제에 대해 충분한 지식을 갖고 있지만 그 어느 하나에도 전문화되어 있지 않습니다. 비트코인의 토큰 경제학을 이해하는 데 도움을 요청하면 답변이 유용하고 대부분 정확할 것입니다. 그러나 EigenLayer와 같은 재가정 프로토콜의 보안 엣지 사례 위험을 나열하도록 요청할 때 이를 너무 신뢰해서는 안 됩니다.

미세 조정이란 미리 훈련된 기계 학습 모델을 가져와 특정 작업이나 사용 사례에 적응하는 데 도움이 되도록 더 작은 대상 데이터 세트에서 추가 훈련을 의미한다는 점을 기억하세요. 이전에는 원시 텍스트 완성 도구를 대화형 모델로 전환할 때 미세 조정에 대해 논의했습니다. 마찬가지로 결과 기본 모델을 세부 조정하여 특정 도메인이나 작업을 전문화할 수도 있습니다.

Med-PaLM2는 Google의 기본 모델 PaLM-2를 미세 조정한 버전으로, 의료 질문에 대한 고품질 답변을 제공하도록 설계되었습니다. MetaMath는 Mistral-7B에서 미세 조정된 수학적 추론 모델입니다. 일부 미세 조정 모델은 스토리텔링, 텍스트 요약, 고객 서비스와 같은 광범위한 범주를 전문으로 하는 반면, 다른 모델은 포르투갈 시, 인도어 번역, 스리랑카 법률과 같은 틈새 영역을 전문으로 합니다.

특정 사용 사례에 맞게 모델을 미세 조정하려면 관련 도메인에 고품질 데이터 세트가 필요합니다. 이러한 데이터 세트는 특정 웹사이트(이 뉴스레터의 암호화된 데이터 등), 독점 데이터 세트(예: 병원에서 수천 건의 의사-환자 상호 작용을 기록할 수 있음) 또는 전문가의 경험(캡처하려면 자세한 인터뷰가 필요함)에서 가져올 수 있습니다.

수백만 개의 AI 모델이 있는 세계로 이동함에 따라 이러한 틈새 롱테일 데이터 세트의 가치가 점점 더 높아지고 있습니다. EY와 같은 대규모 회계 회사부터 가자 지구의 프리랜서 사진가에 이르기까지 이러한 데이터 세트의 소유자는 AI 군비 경쟁에서 빠르게 가장 인기 있는 상품이 되고 있는 것을 얻기 위해 안간힘을 쓰고 있습니다. Gulp Data와 같은 서비스는 기업이 데이터의 가치를 공정하게 평가할 수 있도록 돕기 위해 등장했습니다.

OpenAI는 "현재 공개적으로 쉽게 접근할 수 없는 인간 사회를 반영하는 대규모 데이터 세트"를 갖춘 개체를 찾기 위해 데이터 파트너에 대한 공개 요청을 발표하기도 했습니다.

우리는 틈새 제품의 구매자와 판매자를 연결하는 좋은 방법을 하나 이상 알고 있습니다. 바로 인터넷 마켓플레이스입니다. Ebay는 수집품을 위한 하나, 인간 노동을 위한 Upwork 및 수많은 다른 카테고리를 위한 수많은 플랫폼을 만들었습니다. 당연히 우리는 틈새 데이터 세트를 위한 시장의 출현을 목격했으며 그 중 일부는 분산되어 있습니다.

베이글은 '고품질의 다양한 데이터' 보유자가 자신의 데이터를 신뢰할 수 없고 개인 정보를 보호하는 방식으로 AI 회사와 공유할 수 있는 도구 세트인 '인공 범용 인프라'를 구축하고 있습니다. 이를 달성하기 위해 영지식(ZK) 및 완전 동형 암호화(FHE)와 같은 기술을 사용합니다.

기업은 가치가 높은 데이터를 보유하고 있지만 개인 정보 보호 또는 경쟁 문제로 인해 이를 수익화할 수 없는 경우가 많습니다. 예를 들어, 연구실은 대량의 게놈 데이터를 보유하고 있지만 환자의 개인 정보 보호를 위해 이를 공유할 수 없거나, 소비재 제조업체가 공급망 폐기물 감소 데이터를 보유하고 있지만 경쟁 비밀을 공개하지 않고는 이를 공개할 수 없습니다. Bagel은 암호화 기술의 발전을 사용하여 이러한 데이터 세트를 유용하게 만드는 동시에 그에 수반되는 우려를 제거합니다.

Grass의 주거용 프록시 서비스는 전문적인 데이터 세트를 만드는 데도 도움이 될 수 있습니다. 예를 들어, 전문적인 요리 추천을 제공하는 모델을 미세 조정하려는 경우 Grass에게 Reddit의 r/Cooking 및 r/AskCulinary와 같은 하위 레딧에서 데이터를 스크랩하도록 요청할 수 있습니다. 마찬가지로, 여행 중심 모델의 작성자는 Grass에게 TripAdvisor 포럼에서 데이터를 스크랩하도록 요청할 수 있습니다.

이는 엄밀히 말하면 독점적인 데이터 소스는 아니지만 여전히 다른 데이터 세트에 귀중한 추가 요소가 될 수 있습니다. Grass는 또한 네트워크를 활용하여 모든 고객이 재사용할 수 있는 보관된 데이터 세트를 만들 계획입니다.

코인올백 트위터
영희에게 코인 인증하고 코인올백 심화방 입장하기