최형광 칼럼 | 데이터는 더 이상 정제되지 않는다

 최형광 칼럼 | 데이터는 더 이상 정제되지 않는다


단어의 의미는 벡터 관계에 있다

생성형 Ai 가 이끄는 데이터 처리 방식은 비선형 구조를 구조를 만든다. 즉 데이터를 입력 받으면 가공하여 정보로 만들지 않고 바로 의미 의미 단위로 전환한다. 대규모 언어모델 (LLM) 과 비전 언어모델 (VLM) 의 등장은 데이터가 정제되지 않아도 되는 세계를 세계를 만들었다. 수많은 원천 데이터에서 단어 간 관계, 문맥 그리고 의미 기반으로 벡터화하며 학습한다. (그림 1) 은 소스데이터의 벡터화 과정과 벡터 데이터베이스로 저장되는 모습을 볼 수 수 있다. 저장된 벡터 데이터는 쿼리를 통해 의미로 나타나게 된다.

(그림 1) 데이터의 벡터화 및 벡터 데이터베이스

최형광

이미지 모델은 픽셀 단위의 정보를 ‘개념’ 으로 해석하며, 영상 데이터는 시간의 흐름 속에서 의미를 의미를 추론한다. 이 과정에서 데이터는 사람이 정해 놓은 규칙으로 필터 되지 않고, ai 의 시선으로 해석된다. Ai 는 스키마와 같은 정형화된 구조 없이 텍스트, 이미지, 음성, 영상 데이터를 스스로 해석하고 의미를 도출한다. 따라서 사람이 개입되는 정제의 과정이 사라지고, 데이터 해석이 곧 활용으로 직결되는 방식으로 방식으로 전환된다.

Ai 시대는 ‘데이터 정제’ 가 아닌 ‘데이터 이해’

생성형 Ai 에서는 정제된 데이터보다 날것 그대로의 데이터가 더 더 유용하게 활용된다. 이제 단어의 의미는 사전 (dictionnaire) 속에서 찾는 것이 아니라 벡터 값의 관계에서 더 정확하게 찾을 수 수 있다. Ai 는 단어를 고정된 정의가 아닌, 문맥 속에서 어떤 의미로 쓰이는지를 벡터 공간에서 추론하기 추론하기 때문이다. ‘강하다’ 라는 단어가 스포츠 기사에서는 ‘힘이 세다’ 는 뜻이고 뜻이고, 커피 리뷰에서는 ‘쓴맛이 강하다’ 로 해석되듯 해석되듯, ai 는 이 차이를 맥락 벡터를 통해 실시간으로 실시간으로 구별한다. 모든 것은 맥락속에 벡터화 되어 있고 Ai 는 질문자의 문맥, 의도에 맞게 해석하여 해석하여. 심지어 질문자의 감정까지도 이해하고, 해석하며 대응한다.



Source link

Related post