티스토리 뷰
chatGPT4는 chatGPT를 만든 OpenAI사가 만든 초거대 언어모델인 GTP의 4번째 모델이라고 보시면 되겠습니다.
chatGPT가 처음 출시 되었을 때는 이 GPT가 3.5 버전이었으며 출시 후 다방면으로 개선된 chatGPT입니다.
더욱 똑똑해진 chatGPT라고 할 수 있겠습니다.
현재 ChatGPT Pro(유료버젼) 사용자에게만 chatGPT4 사용할 수 있게 되어 있습니다.
기존 chatGPT(GPT3.5) 대비 chatGPT(GPT4.0)이 개선된 부분
- 창의성 향상 (노래 작곡, 시나리오 작성, 사용자의 글쓰기 스타일 학습등 기존 chatGPT3에 비해 발전됨)
- 텍스트 기반의 질문에 더해서 사진을 입력하고 질문할 수 있음 (현재는 서비스 제공 되지 않음)
- 더 많은 텍스트를 입력받을 수 있습니다 (chatGPT3.5 : 3000 단어, chatGPT4: 25000 단어)
- (기존 chatGPT3.5 대비) 고차원적인 추론 가능
- 사람을 대상으로 하는 다양한 시험 성적 향상
추가적으로 공식 홈페이지에 소개된 내용들을 번역해서 정리해 드리겠습니다.
개요
OpenAI는 딥러닝의 확장성을 높이기 위한 여정의 최첨단 결과물인 GPT-4를 선보이고자 합니다. GPT-4는 이미지와 텍스트 입력을 바탕으로 텍스트 출력이 가능한 대규모 멀티모달 모델입니다. 다양하고 복잡한 실생활에서의 대응 능력은 사람보다 부족하지만, 전문성 혹은 학술적인 능력을 요구하는 벤치마크에서는 사람과 동등한 수준의 성능을 선보입니다.
예를 들어, GPT-4는 미국 변호사 시험에서 상위 10%의 성적을 기록하였으며, GPT-3.5는 하위 10%에 해당하는 성적을 기록했습니다. 6개월 동안 더 안전하고 일관성 있는 GPT-4를 만들기 위해 노력했습니다. 내부 평가 결과, GPT-4는 허용되지 않는 콘텐츠의 요청에 응답할 확률이 82% 낮아졌고, 사실에 입각한 응답을 제공할 확률이 GPT-3.5보다 40% 높아졌습니다.
➡ 이미지 입력이 가능해졌고 다양한 시험을 응시해서 좋은 성적을 거두었다고 홍보합니다.
저희는 지난 2년 동안 딥러닝 스택을 완전히 재구축했으며, 우리만의 작업 방식에 알맞은 슈퍼컴퓨터를 Azure와 공동 설계하였습니다. 1년 전 이 시스템의 첫 테스트 런으로 GPT-3.5를 학습하였습니다. 이 단계에서 찾아낸 몇 가지 버그를 수정하였고 이론적 기반을 더욱 단단히 다졌습니다. 덕분에 GPT-4 학습에는 (적어도 저희에겐) 전례 없는 수준의 안정성을 확보하였고, 사전에 학습 성능을 정확하게 예측한 OpenAI 최초의 대형 모델이 되었습니다. 신뢰성이 바탕이 된 확장성을 추구하는 입장에서, 저희는 미래 모델들의 성능을 사전에 예측하고 대응할 수 있는 방법론을 구축하고자 합니다.
➡ 사전에 학습 성능을 예측한다는 것이 이해가 가지는 않지만 예측을 통해 더욱 발전된 모델을 구축할 수 있는 것은 대단한 부분인 것 같습니다.
ChatGPT 및 API(대기자 명단)를 통해 GPT-4의 텍스트 입력 기능을 출시하고 있습니다. 이미지 입력 기능을 더 많은 분들이 사용할 수 있도록 '하나의 파트너'와 긴밀하게 협업하고 있습니다. 또한 AI 모델 성능 자동평가 프레임워크인 'OpenAI Evals'를 오픈 소싱하여 누구나 모델의 부족한 부분을 보고하여 모델 개선이 지속적으로 이루어질 수 있도록 하고 있습니다.
➡ 현재 GPT4 API를 사용하기 위해 대기자를 접수받고 있으며 아래 링크에서 등록 가능합니다.
➡ 현재 ChatGPT에서는 사용이 불가능하며 Plus 유료고객 전환을 한 대상자에게 한해 사용할 수 있습니다.
➡ 이미지 입력을 위한 협력사로 'Be my eyes'라는 회사를 소개하는데 시각장애인과 봉사자들을 온라인으로 이어주고 실시간으로 도움을 주고받을 수 있는 스마트폰용 앱을 개발한 회사입니다. 이 회사는 GPT4를 활용하여 시각장애인이 촬영하는 사진을 분석하여 필요한 정보를 제공하고자 합니다.
성능
일상 대화 맥락에서 GPT-3.5와 GPT-4의 차이는 두드러지지 않을 수 있습니다. 하지만 작업의 복잡성이 어느 정도 임계점을 넘어서면 확연한 차이가 나타납니다. GPT-4는 GPT-3.5보다 더 창의적이고 신뢰할 수 있으며, 훨씬 미묘한 명령을 수행할 수 있습니다.
두 모델의 차이를 이해하기 위해, 우리는 원래 인간을 위해 설계된 모의고사를 포함한 다양한 벤치마크에서 테스트했습니다. 우리는 가장 최근에 공개적으로 사용 가능한 테스트(올림피아드 및 AP 무료 응답 질문의 경우)를 사용하거나 2022-2023년 버전의 연습 테스트를 구입하는 방식으로 진행했다. 이러한 문제 풀이를 위한 별도의 훈련은 시키지 않았습니다. 문제 중 일부는 모델 훈련 과정에서 활용되었지만, 저희는 테스트 결과가 충분히 대표성을 띠는 것으로 보고 있습니다. 자세한 내용은 기술 보고서를 참고해 주세요.
➡복잡하고 창의적인 작업을 할 수 있고 다양한 시험에서 우수한 성적을 거두었다고 합니다.
기존의 대다수 ML(기계학습) 벤치마크는 영어로 작성됩니다. 다른 언어 활용 시 어느 정도 성능이 나오는지 파악하기 위해, MMLU 벤치마크 번역을 진행했습니다. MMLU 벤치마크는 57개 과목에 걸친 14,000개의 객관식 문제로 이루어져 있으며, Azure Translate를 사용하여 질문 다양한 언어로 번역했습니다. (부록 참조). 테스트를 거친 26개 언어 중 24개 언어에서 GPT-4는 GPT-3.5와 기타 LLM(Chinchilla, PaLM)에 대해서 영어와 수요가 적은 라트비아어, 웨일스어, 스와힐리어와 같은 언어에서 더 뛰어난 성능을 자랑했습니다.
➡한국어도 어느 정도 성능이 향상되었습니다. (한국어에서 영어로 번역해서 질문을 합니다)
사진 입력
GPT-4는 텍스트 전용 설정과 마찬가지로 텍스트와 이미지 프롬프트로 사용자가 시각이나 언어 작업을 지정할 수 있도록 합니다. 특히, 그것은 텍스트와 이미지로 구성된 입력이 주어지면 텍스트 출력(자연어, 코드 등)을 생성합니다. 텍스트 및 사진이 포함된 문서, 다이어그램 또는 스크린숏을 포함한 다양한 영역에서 GPT-4는 텍스트 전용 입력에서 수행하는 것과 유사한 기능을 보여줍니다. 또한 텍스트 전용 언어모델을 위해 개발된 테스트 타임 기법으로 확장될 수 있으며, 여기에는 Few-Shot과 chain-of-thought prompt도 해당됩니다. 이미지 입력은 아직 연구실험 단계이며 공개 사용 단계는 아닙니다.
➡ 사진입력기능은 아직 테스트 중인 듯합니다.
➡ 공식 홈페이지에 여러 가지 사진을 활용한 질의응답 예시가 있습니다.
안정성
저희는 조종가능성을 포함한 AI의 행동을 정의하는 방법에 대한 포스팅에 제시한 계획의 모든 부분에 대한 작업을 진행해 왔습니다. 기존의 ChatGPT에서 볼 수 있었던 딱딱하고 장황한 말투, 어조, 스타일로 작업하기보다 개발자들 (그리고 조만간 ChatGPT 사용자들까지) '시스템' 메시지에 원하는 AI의 스타일과 수행해야 할 작업을 설명함으로써 맞춤형으로 설정할 수 있습니다. 시스템 메시지는 바운드 내에서 API 사용자들에게 훨씬 높은 수준의 맞춤형 사용자 경험을 선사합니다. 여기서 지속적으로 개선이 이루어지겠지만(또한 시스템 메시지가 현재 모델에서 탈피하는 가장 쉬운 방법이라는 점, 즉 바운드를 준수가 완벽하지 않다는 점을 인지하고 있습니다), 직접 사용해 보시고 의견을 공유해 주시길 부탁드립니다.
➡악용하려는 사람들이 있어 넘어서는 안될 선(?)을 지키려고 노력하는 듯합니다.
그 외 Limitation(한계점), Risks&mitigration (리스크와 리스크 완화 조치), Training Process(학습과정) 등 자세히 나와 있으니 한번쯤 홈페이지 방문해서 보시는 것도 좋겠습니다.
*사진출처 : Youtube, 내일은 투자왕 - 김단테
*글 출처 : OpenAI 공식 홈페이지
'트렌드' 카테고리의 다른 글
싼타페 신형 풀체인지(MX5) 출시일 가격 하이브리드 포함 (0) | 2023.08.13 |
---|---|
2024 소나타 디엣지 하이브리드 신형 카페 (0) | 2023.06.23 |
챗 GPT란? 챗 GPT 설치 및 사용 방법 간략 정리 (0) | 2023.02.25 |