기고 | 데이터의 바벨탑에서 부문 간 소통 살리기

 기고 | 데이터의 바벨탑에서 부문 간 소통 살리기

그들은 또 데이터를 개념이 아닌 물리적 존재처럼 취급한다. 정리되고 합리화되어야 하는 대상이다. 그들은 공식적 또는 비공식적 요구사항 문서를 통해 데이터 요구사항을 전달한다. 필요한 데이터의 종류, 출처, 정리 요구사항, 사용 목적 등을 정의한다. 문서화, 구조, 역사에 관심을 기울인다. 특정 공급망 효율성 지표가 갑자기 다른 방식으로 계산되거나 다른 시스템에서 가져오게 되면, 이들은 변경의 역사와 영향력을 보여주는 문서 문서 기록을 요구한다.

파워 유저는 기술에 능통한 분석가라고 볼 수 있는 이들이다. SQL 최적화 방법을 모르더라도 Customer_id 필드를 사용하여 주문 데이터와 예측 데이터를 통합해야 한다는 것을 알고 알고 있다. 그들은 데이터베이스에서 데이터를 액세스하는 방법을 고민한다. 그러나 관리, 저장, 클라우드 비용 급증과 같은 ‘기계적’ 데이터 문제와는 다소 동떨어져 동떨어져 있다. 그들은 다양한 데이터세트가 어떻게 처리되고 통합되어야 하는지를 설명하기 위해 시각적 디자인 도구를 자주 사용한다.

데이터 엔지니어는 데이터와 관련한 ‘물리학’ 을 고민한다. 데이터가 어디에 저장되는지, 어떻게 보호되는지, 누가 접근할 수 있는지, 데이터의 청결도 (또는 오염도), 개인 식별 정보 정보 정보 정보 정보 정보 정보 정보 (pii) 포함 여부, 관리 비용은 등이다. 그들은 수백 개의 데이터 소스에서 데이터를 접근 가능하게 만드는 ‘중요한 작업’ 을 수행한다. 데이터의 물리적 이동을 주로 담당하기 때문에 그들의 ‘모국어’ 는 코드다 – 주로 SQL, 때로는 스파크, 파이썬이며, 이 외의 다른 언어를 사용하기도 사용하기도 한다. 코드는 데이터의 형식 변경부터 클라우드 비용을 최소화하기 위해 처리되는 위치까지 모든 것을 정밀하게 제어할 수 있게 있게 한다.



Source link

Related post