실시간으로 오디오, 비전, 텍스트를 거칠 수 있는 새로운 주력 모델인 GPT-4o를 발표했습니다.
GPT-4o는 텍스트, 오디오, 이미지 및 비디오의 모든 조합을 입력으로 받아들이고 텍스트, 오디오 및 이미지 출력의 모든 조합을 생성할 수 있습니다. GPT-4o는 대화에서 인간의 응답 속도와 유사한 시간 내에 오디오 입력에 응답할 수 있으며, 텍스트에 대한 처리는 GPT-4 Turbo와 유사하지만 비용은 50% 절감됩니다. 또한, 기존 모델에 비해 비전 및 오디오 이해력이 크게 향상되었습니다.
모델 능력
- GPT-4os 두 개가 상호작용하며 노래합니다.
- 인터뷰 준비
- 가위바위보
- 빈정거림
- Sal과 Imran Khan과 수학 문제 풀기
- GPT-4os 두 개가 조화를 이룹니다.
- 스페인어 배우기
- 회의 인공지능
- 실시간 번역
- 자장가
- 더 빠르게 말하기
- 생일 축하
- 개
- 아빠 농담
- 런던 BeMyEyes의 Andy와 함께
- 고객 서비스 개념 증명
사람과 같은 GPT-4o와 바로 대화해보세요.
Voice Mode와의 변화
GPT-4o 이전에 Voice Mode를 사용하여 ChatGPT와 대화하는 데는 평균 2.8초(GPT-3.5)와 5.4초(GPT-4)의 대기시간이 필요했습니다. GPT-4에서 주요 정보 손실이 발생했습니다.
GPT-4o에서는 텍스트, 비전 및 오디오를 한꺼번에 처리하는 단일 새로운 모델을 훈련시켰습니다. 이로써 GPT-4o는 이전 모델들보다 더 나은 이해와 처리 능력을 갖추게 되었습니다.
모델 평가
GPT-4o는 전통적인 평가 기준에서 GPT-4 Turbo 수준의 성능을 달성하며, 다중 언어, 오디오 및 비전 기능에서 새로운 기록을 세웁니다.
언어 토큰화
새로운 토크나이저의 압축을 통해 20개 언어의 토큰 수를 줄였습니다.
모델 안전성과 한계
GPT-4o는 다중 모달리티를 고려하여 설계되었으며, 훈련 데이터 필터링 및 사후 훈련을 통한 모델 행동의 정제와 같은 기술을 통해 안전성을 확보했습니다.
모델 가용성
GPT-4o는 기존 모델보다 저렴하고, 더 빠르며, 더 높은 요청 제한을 가지고 있으며, API에서 텍스트 및 비전 모델로 사용할 수 있습니다.
저희는 새로운 주력 모델 GPT-4o를 널리 사용할 수 있도록 노력하고 있습니다. GPT-4o의 기능은 점진적으로 확대되고 있으며, API에서 오디오 및 비디오 기능을 지원할 예정입니다.
'모르면 손해래요' 카테고리의 다른 글
맥도날드 한국 만 없는 감자튀김 고객센터 배달 거지 만든다 (0) | 2024.06.26 |
---|---|
재혼한 임영웅 엄마 가짜뉴스 한달 음원수익 40억 임영웅 새아버지 이영하? (1) | 2023.12.20 |
임영웅 엄마 어머니 재혼 근황 (0) | 2023.11.23 |