AI에 대한 신중한 접근 방식을 통해 편향된 데이터 세트를 줄이는 방법

편향된 데이터 세트 및 윤리적 AI

AI 기반 솔루션이 효과적이려면 데이터 세트가 필요합니다. 그리고 이러한 데이터 세트의 생성은 체계적인 수준에서 내재된 편향 문제로 가득 차 있습니다. 모든 사람들은 편견(의식적이든 무의식적이든)으로 고통받습니다. 편향은 지리적, 언어적, 사회경제적, 성차별적, 인종차별적 등 다양한 형태를 취할 수 있습니다. 그리고 이러한 체계적인 편향은 데이터에 반영되어 편향을 영속화하고 확대하는 AI 제품을 만들 수 있습니다. 조직은 데이터 세트에 들어오는 편향을 완화하기 위해 신중한 접근 방식이 필요합니다.

편향 문제를 보여주는 예

당시 많은 부정적인 언론을 모은 이 데이터 세트 편향의 한 가지 주목할만한 예는 여성보다 남성 후보자를 선호하는 이력서 읽기 솔루션이었습니다. 이는 모집 도구의 데이터 세트가 지원자의 대다수가 남성이었던 지난 XNUMX년 동안의 이력서를 사용하여 개발되었기 때문입니다. 데이터는 편향되었고 결과는 그 편향을 반영했습니다. 

널리 보고된 또 다른 예: 연례 Google I/O 개발자 컨퍼런스에서 Google은 사람들이 피부, 머리카락, 손톱과 관련된 문제를 이해하는 데 도움이 되는 AI 기반 피부과 지원 도구의 미리보기를 공유했습니다. 피부과 조수는 AI가 의료를 돕기 위해 어떻게 진화하고 있는지 강조하지만 도구가 유색인종에게 적합하지 않다는 비판에 따라 AI에 편견이 침투할 가능성도 강조했습니다.

Google이 도구를 발표했을 때 회사는 다음과 같이 언급했습니다.

우리가 모두를 위해 구축하고 있는지 확인하기 위해 우리 모델은 나이, 성별, 인종 및 피부 유형과 같은 요인을 고려합니다. 그을리지 않는 창백한 피부부터 거의 타지 않는 갈색 피부까지.

Google, AI를 사용하여 일반적인 피부 상태에 대한 답변 찾기

그러나 Vice의 기사에서는 Google이 포괄적인 데이터 세트를 사용하지 못했다고 말했습니다.

이 작업을 수행하기 위해 연구원들은 두 주에 있는 64,837명의 환자에 대한 12,399개의 이미지로 구성된 훈련 데이터 세트를 사용했습니다. 그러나 그림에 나타난 수천 가지 피부 상태 중 오직 3.5%만이 Fitzpatrick 피부 유형 V 및 VI(각각 갈색 피부와 짙은 갈색 또는 검은색 피부를 나타냄) 환자에게서 발생했습니다. 연구에 따르면 데이터베이스의 90%는 하얀 피부, 어두운 흰색 피부 또는 밝은 갈색 피부를 가진 사람들로 구성되었습니다. 편향된 샘플링의 결과로 피부과 의사들은 앱이 백인이 아닌 사람들을 과소 또는 과소 진단할 수 있다고 말합니다.

Vice, Google의 새로운 피부과 앱은 피부가 어두운 사람들을 위해 설계되지 않았습니다.

Google은 공식적으로 출시하기 전에 도구를 개선할 것이라고 응답했습니다.

AI 기반 피부과 보조 도구는 XNUMX년 이상의 연구 결과입니다. 우리의 작업이 Nature Medicine에 실린 이후로 우리는 수천 명의 사람들이 기증한 데이터와 수백만 개의 선별된 피부 문제 이미지를 포함하는 추가 데이터 세트를 통합하여 기술을 지속적으로 개발하고 개선해 왔습니다.

Google, AI를 사용하여 일반적인 피부 상태에 대한 답변 찾기

AI와 기계 학습 프로그램이 이러한 편견을 바로잡을 수 있기를 바라는 만큼 현실은 그대로입니다. 스마트 한 데이터 세트가 깨끗하기 때문입니다. 오래된 프로그래밍 격언에 대한 업데이트에서 쓰레기 인/쓰레기 아웃, AI 솔루션은 처음부터 데이터 세트의 품질만큼 강력합니다. 프로그래머의 수정이 없으면 이러한 데이터 세트는 자체 수정에 대한 배경 경험이 없습니다. 단순히 다른 참조 프레임이 없기 때문입니다.

책임감 있게 데이터 세트를 구축하는 것이 모든 것의 핵심입니다. 윤리적 인공 지능. 그리고 솔루션의 핵심에는 사람이 있습니다. 

마음챙김 AI는 윤리적 AI

바이어스는 진공 상태에서 발생하지 않습니다. 비윤리적이거나 편향된 데이터 세트는 개발 단계에서 잘못된 접근 방식을 취함으로써 발생합니다. 편견 오류를 방지하는 방법은 업계의 많은 사람들이 Mindful AI라고 부르는 책임감 있고 인간 중심적인 접근 방식을 채택하는 것입니다. Mindful AI에는 세 가지 중요한 구성 요소가 있습니다.

1. Mindful AI는 인간 중심입니다.

AI 프로젝트 초기부터 계획 단계에서 사람의 요구가 모든 결정의 중심에 있어야 합니다. 이는 하위 집합이 아닌 모든 사람을 의미합니다. 그렇기 때문에 개발자는 AI 애플리케이션이 포괄적이고 편향되지 않도록 교육하기 위해 전 세계에 기반을 둔 다양한 팀에 의존해야 합니다.

전 세계의 다양한 팀에서 데이터 세트를 크라우드소싱하면 편견을 조기에 식별하고 필터링할 수 있습니다. 다양한 민족, 연령 그룹, 성별, 교육 수준, 사회경제적 배경 및 위치의 사람들은 한 값 집합을 다른 값보다 선호하는 데이터 집합을 더 쉽게 찾아내어 의도하지 않은 편견을 제거할 수 있습니다.

음성 응용 프로그램을 살펴보십시오. 신중한 AI 접근 방식을 적용하고 글로벌 인재 풀의 힘을 활용할 때 개발자는 데이터 세트의 다양한 방언 및 억양과 같은 언어 요소를 설명할 수 있습니다.

처음부터 인간 중심의 디자인 프레임워크를 구축하는 것이 중요합니다. 생성, 선별 및 레이블링된 데이터가 최종 사용자의 기대를 충족하는지 확인하는 데 큰 도움이 됩니다. 그러나 전체 제품 개발 수명 주기 전반에 걸쳐 사람을 계속해서 유지하는 것도 중요합니다. 

루프에 있는 인간은 또한 기계가 각 특정 청중을 위해 더 나은 AI 경험을 만들도록 도울 수 있습니다. 전 세계에 위치한 Pactera EDGE의 AI 데이터 프로젝트 팀은 다양한 문화와 컨텍스트가 신뢰할 수 있는 AI 교육 데이터의 수집 및 큐레이션에 어떻게 영향을 미칠 수 있는지 이해합니다. 그들은 AI 기반 솔루션이 실행되기 전에 문제를 표시하고, 모니터링하고, 수정하는 데 필요한 도구를 가지고 있습니다.

Human-in-the-loop AI는 사람들의 장점과 다양한 배경을 기계의 빠른 컴퓨팅 성능과 결합한 프로젝트 "안전망"입니다. 편향된 데이터가 프로젝트의 기반을 형성하지 않도록 이러한 인간과 AI 협업은 프로그램 초기부터 확립되어야 합니다. 

2. 마음챙김 AI가 책임진다

책임을 진다는 것은 AI 시스템에 편견이 없고 윤리에 기반을 두고 있는지 확인하는 것입니다. 데이터가 생성되는 방법, 이유, 위치, 데이터가 AI 시스템에 의해 합성되는 방법, 윤리적 영향을 미칠 수 있는 의사 결정을 내리는 데 데이터가 사용되는 방식에 대한 것입니다. 기업이 그렇게 하는 한 가지 방법은 덜 대표되는 커뮤니티와 협력하여 보다 포괄적이고 편향되지 않도록 하는 것입니다. 데이터 주석 분야에서 새로운 연구는 각 주석자의 레이블을 별도의 하위 작업으로 취급하는 다중 주석자 다중 작업 모델이 주석자 불일치가 과소 표현 및 단일 ground truth에 대한 주석 집계에서 무시될 수 있습니다. 

3. 믿을 수 있는

신뢰성은 비즈니스가 AI 모델이 어떻게 훈련되고, 어떻게 작동하며, 왜 결과를 추천하는지에 대해 투명하고 설명할 수 있는 데서 나옵니다. 기업은 한 국가에서 다른 국가로 AI 솔루션의 신뢰성을 만들거나 깰 수 있는 현지 언어 및 사용자 경험의 중요한 뉘앙스를 존중하면서 고객이 AI 애플리케이션을 보다 포괄적이고 개인화할 수 있도록 AI 현지화에 대한 전문 지식을 필요로 합니다. . 예를 들어, 기업은 음성 기반 응용 프로그램의 언어, 방언 ​​및 억양을 포함하여 개인화되고 현지화된 컨텍스트에 맞게 응용 프로그램을 설계해야 합니다. 그런 식으로 앱은 영어에서 덜 대표되는 언어에 이르기까지 모든 언어에 동일한 수준의 음성 경험을 제공합니다.

공정성과 다양성

궁극적으로, 마음챙김 AI는 솔루션이 시장에 출시되기 전에 특정 결과의 결과와 영향을 모니터링하고 평가하는 공정하고 다양한 데이터 세트를 기반으로 솔루션이 구축되도록 합니다. 솔루션 개발의 모든 부분에 주의를 기울이고 인간을 포함함으로써 우리는 AI 모델이 깨끗하고, 편향을 최소화하며, 가능한 한 윤리적으로 유지되도록 돕습니다.

당신은 어떻게 생각하십니까?

이 사이트는 Akismet을 사용하여 스팸을 줄입니다. 댓글 데이터 처리 방법 알아보기.