Ai 성능 평가, 벤치마크만으론 부족하다 ··· 메타 라마 4 논란이 보여준 실사용 검증의 필요성

컨설팅 기업 애멀감 인사이트 (idées d’amalgame) 의 CEO 이자 수석 애널리스트인 현 박은 모든 모든 벤더는 벤치마크 결과를 자사 기술의 우수성을 드러내는 수단으로 활용하려 한다 한다 라며 라며 특히 불투명한 방식으로 벤치마크를 조작하려는 의심을 살 살 수밖에 없다 ”라고 라고 불투명한 방식으로 벤치마크를 조작하려는 의심을 살 살 수밖에 없다 없다 라고 라고 언급했다.
다만 박은 주요 생성형 Ai 벤더가 경쟁사 수준에 부합하거나 추월할 가능성을 보이는 한, 이런 이슈가 장기적으로 큰 반향을 일으킬 가능성은 가능성은 낮다고 분석했다. 그는 “기초 모델 시장은 매우 빠르게 변화하고 있으며, 성능이나 생산성 면에서의 비약적인 발전이 매달 혹은 그보다 더 짧은 주기로 발생하고 있다 있다 라며 라며 라며 솔직히 말해, 지금의 모델 벤치마크 순위는 6 개월에서 1 년 의미가 없어질 없어질 것 것 이라고 이라고 전했다.
Ai 검토 시 기업의 실환경 테스트가 더 중요
모델이 급증하고 있는 현재, 조직이나 개발자가 Ai 가 자사 환경에서 어떻게 작동할지를 이해하는 것은 매우 매우 중요하다. 벤치마크는 이런 이해를 돕는 첫걸음이 될 수 있다. 슈브멜은 «Ai 모델을 활용한 애플리케이션이 복잡해지면서 성능 중요도가 더욱 커지고 있으며, 벤치마크는 시작점으로서 유용하다” 라고 말했다. 그러나 그는 “궁극적으로는 각 기업의 데이터, 프롬프트, 운영 환경에서의 테스트가 진짜 벤치마크가 된다 된다” 라고 강조했다.