CRM 및 데이터 플랫폼전자 상거래 및 소매이메일 마케팅 및 이메일 마케팅 자동화

데이터 표준화: 정의, 테스트 및 변환

조직이 기업 전체에 데이터 문화를 구축하는 방향으로 전환하는 동안 많은 조직이 여전히 올바른 데이터를 얻기 위해 고군분투하고 있습니다. 서로 다른 소스에서 데이터를 가져오고 동일한 정보로 간주되는 다양한 형식과 표현을 얻으면 데이터 여정에 심각한 장애물이 발생합니다.

팀은 일상적인 작업을 수행하거나 데이터 세트에서 통찰력을 추출하는 동안 지연과 실수를 경험합니다. 이러한 문제로 인해 기업은 데이터 표준화 메커니즘을 도입해야 합니다. 이를 통해 데이터가 조직 전체에서 일관되고 균일한 보기로 표시됩니다. 

데이터 표준화 프로세스, 즉 의미, 수반되는 단계 및 기업에서 표준 데이터 보기를 달성하는 방법에 대해 자세히 살펴보겠습니다.

데이터 표준화란 무엇입니까?

간단히 말해 데이터 표준화는 잘못된 형식에서 올바른 형식으로 데이터 값을 변환하는 프로세스입니다. 조직 전체에서 표준화되고 균일하며 일관된 데이터 보기를 사용하려면 데이터 값이 속한 데이터 필드의 컨텍스트에서 필요한 표준을 준수해야 합니다.

데이터 표준화 오류의 예

예를 들어, 서로 다른 두 위치에 있는 동일한 고객의 기록에는 이름과 성, 이메일 주소, 전화번호, 거주지 주소가 일치하지 않아야 합니다.

이름 이메일 주소 전화 번호 생년월일 성별 거주지 주소
존 오닐 john.neal@gmail.com 5164659494 14 / 2 / 1987 M 11400 W 올림픽 BL # 200
소스 1

이름 이메일 주소 전화 번호 생년월일 성별 거주지 주소
요한 복음 오닐 john.neal_gmail.com + 1 516-465-9494 2 / 14 / 1987 남성 11400W 올림픽 200
소스 2

위의 예에서 다음과 같은 유형의 불일치를 볼 수 있습니다.

  1. 구조 : 첫 번째 소스는 고객 이름을 단일 필드로 다루고 두 번째 소스는 이름과 성이라는 두 개의 필드로 저장합니다.
  2. 패턴 : 첫 번째 소스에는 유효한 이메일 패턴 이메일 주소 필드에 적용되는 반면 두 번째 필드는 눈에 띄게 누락되었습니다. @ 상징. 
  3. 데이터 형식: 첫 번째 소스는 전화번호 필드에 숫자만 허용하고 두 번째 소스에는 기호와 공백도 포함하는 문자열 유형 필드가 있습니다.
  4. 체재: 첫 번째 소스에는 MM/DD/YYYY 형식의 생년월일이 있고 두 번째 소스에는 DD/MM/YYYY 형식이 있습니다. 
  5. 도메인 값: 첫 번째 소스는 Gender 값을 M 또는 F로 저장하는 것을 허용하고 두 번째 소스는 완전한 형태(남성 또는 여성)를 저장합니다.

이러한 데이터 불일치로 인해 비즈니스에서 많은 시간, 비용 및 노력을 잃을 수 있는 심각한 실수를 저지를 수 있습니다. 이러한 이유로 종단 간 메커니즘을 구현하는 데이터의 표준화 데이터 위생을 유지하는 데 중요합니다.

데이터를 표준화하는 방법?

데이터 표준화는 간단한 XNUMX단계 프로세스입니다. 그러나 데이터에 존재하는 불일치의 특성과 달성하려는 목표에 따라 표준화에 사용되는 방법과 기술이 다를 수 있습니다. 여기에서는 모든 조직이 표준화 오류를 극복하는 데 사용할 수 있는 일반적인 경험 법칙을 제시합니다. 

  1. 표준이 무엇인지 정의

어떤 상태에 도달하려면 먼저 상태가 실제로 무엇인지 정의해야 합니다. 모든 데이터 표준화 프로세스의 첫 번째 단계는 달성해야 할 사항을 식별하는 것입니다. 필요한 것이 무엇인지 아는 가장 좋은 방법은 비즈니스 요구 사항을 이해하는 것입니다. 어떤 데이터가 어떤 형식으로 필요한지 확인하려면 비즈니스 프로세스를 스캔해야 합니다. 이렇게 하면 데이터 요구 사항에 대한 기준을 설정하는 데 도움이 됩니다.

데이터 표준 정의는 다음을 식별하는 데 도움이 됩니다.

  • 비즈니스 프로세스에 중요한 데이터 자산, 
  • 해당 자산의 필수 데이터 필드,
  • 값이 따라야 하는 데이터 유형, 형식 및 패턴,
  • 이러한 필드에 대해 허용되는 값의 범위 등입니다.

  1. 정의된 표준에 대한 테스트 데이터 세트

표준 정의가 있으면 다음 단계는 데이터 세트가 표준 정의에 대해 얼마나 잘 수행되는지 테스트하는 것입니다. 이를 평가하는 한 가지 방법은 다음을 사용하는 것입니다. 데이터 프로파일 링 포괄적인 보고서를 생성하고 다음과 같이 데이터 필드의 요구 사항을 준수하는 값의 백분율과 같은 정보를 찾는 도구:

  • 값이 필수 데이터 유형 및 형식을 따르나요?
  • 값이 허용 범위를 벗어났습니까?
  • 값이 약어 및 별명과 같은 축약형을 사용합니까?
  • 인가 주소 표준화 필요에 따라 – 예를 들어 USPS 표준화 미국 주소를 위해?

  1. 부적합 값 변환

이제 마침내 정의된 표준을 따르지 않는 값을 변환할 시간입니다. 사용되는 일반적인 데이터 변환 기술을 살펴보겠습니다.

  • 데이터 파싱 – 일부 데이터 필드는 필요한 데이터 구성 요소를 얻기 위해 먼저 구문 분석되어야 합니다. 예를 들어 이름 필드를 구문 분석하여 이름, 중간 이름, 성을 구분하고 값에 있는 접두사 또는 접미사를 구분합니다.
  • 데이터 유형 및 형식 변환 – 변환 중에 부적합 문자를 제거해야 할 수도 있습니다(예: 숫자로만 구성된 전화 번호에서 기호 및 알파벳 제거).
  • 패턴 일치 및 유효성 검사 – 패턴 변환은 패턴에 대한 정규식을 구성하여 수행합니다. 정규식을 준수하는 이메일 주소 값의 경우 구문 분석되어 정의된 패턴으로 변환되어야 합니다. 이메일 주소는 정규식을 사용하여 확인할 수 있습니다.

^[a-zA-Z0-9+_.-]+@[a-zA-Z0-9.-]+$

  • 약어 확장 – 회사 이름, 주소 및 사람 이름에는 종종 데이터 세트에 동일한 정보의 다양한 표현이 포함될 수 있는 축약된 형식이 포함됩니다. 예를 들어 NY를 New York으로 변환하는 것과 같이 국가를 확장해야 할 수 있습니다.
  • 노이즈 제거 및 맞춤법 수정 – 특정 단어는 실제로 값에 의미를 추가하지 않으며 대신 데이터 세트에 많은 노이즈를 도입합니다. 이러한 값은 이러한 단어가 포함된 사전에 대해 실행하고, 플래그를 지정하고, 영구적으로 제거할 단어를 결정하여 데이터세트에서 식별할 수 있습니다. 철자 오류 및 입력 오류를 찾기 위해 동일한 프로세스를 실행할 수 있습니다.

  1. 정의된 표준에 대해 데이터 세트 다시 테스트

마지막 단계에서는 수정된 데이터 표준화 오류의 백분율을 찾기 위해 변환된 데이터 세트를 정의된 표준에 대해 다시 테스트합니다. 데이터세트에 여전히 남아 있는 오류의 경우 방법을 조정하거나 재구성하고 프로세스를 통해 데이터를 다시 실행할 수 있습니다. 

시공 종합

오늘날 생성되는 데이터의 양과 이 데이터를 캡처하는 데 사용되는 다양한 도구 및 기술로 인해 기업은 엄청난 데이터 혼란에 직면하게 됩니다. 그들은 필요한 모든 것을 갖추고 있지만 데이터가 수용 가능하고 사용 가능한 형태와 형식으로 존재하지 않는 이유를 잘 모릅니다. 데이터 표준화 도구를 채택하면 이러한 불일치를 수정하고 조직 전체에서 꼭 필요한 데이터 문화를 활성화하는 데 도움이 될 수 있습니다.

자라 지아드

Zara Ziad는 제품 마케팅 분석가입니다. 데이터 래더 IT에 대한 배경을 가지고 있습니다. 그녀는 오늘날 많은 조직이 직면한 실제 데이터 위생 문제를 강조하는 창의적인 콘텐츠 전략을 설계하는 데 열정적입니다. 그녀는 기업이 비즈니스 인텔리전스 프로세스에서 고유한 데이터 품질을 구현하고 달성하는 데 도움이 될 수 있는 솔루션, 팁 및 사례를 전달하는 콘텐츠를 제작합니다. 그녀는 기술 인력에서 최종 사용자에 이르기까지 다양한 대상을 대상으로 하는 콘텐츠를 만들고 다양한 디지털 플랫폼에서 마케팅하기 위해 노력합니다.

당신은 어떻게 생각하십니까?

이 사이트는 Akismet을 사용하여 스팸을 줄입니다. 댓글 데이터 처리 방법 알아보기.

관련 기사