본문 바로가기

교사의 삶/AI수업

[AI수업실록] 5차시- 인공지능을 믿을 수 있을까? (편견반영 데이터)

이번 차시에는 편견이 반영된 데이터를 학습한 인공지능어떤 오류를 범하는지 살펴보겠습니다. 데이터에 어떻게 편견이 반영될 수 있을까요? 데이터를 수집한 사람이 그것을 의도했을까요? 그건 모르는 일입니다. 하지만 확실한건 데이터를 수집한 개발자가 의도하지 않았더라도 편견은 충분히 반영될 수 있습니다. 

 


[1] 

☞ 글로벌기업 아마존

2018년 글로벌기업 아마존에서 신입사원을 채용하는 인공지능을 개발하였습니다. 그런데 얼마 지나지 않아 전량 폐기 수밖에 없었습니다. 이유가 무엇일까요?

 

아마존 로고
글로벌기업 아마존

 

채용 인공지능을 실제 적용하기 전 최종 시뮬레이션을 해보았더니 남성지원자가 여성 지원자보다 지속해서 높은 점수를 받는 현상이 발견되었기 때문입니다. 개발자들은 당황했겠죠? 그래서 열심히 원인을 찾아보았습니다. 그들이 찾은 결론은 다음과 같습니다.

 

  • 아마존에서 신입사원 채용AI을 개발할 때 기존 우수사원을 기본 데이터로 인공지능을 학습시킴. 높은 성과와 좋은 평가를 받았던 직원들의 데이터를 기준으로 신입사원 채용을 판단하게 함.
  • 그런데 아마존은 IT기업으로써 개발직군이 전체 직원수의 70% 이상을 차지하고 있었고, 이 개발직군은 90% 이상이 남성 직원이었음. 우수 사원도 남성이 많았을 가능성이 큼.
  • 따라서, 이 기준을 학습한 인공지능은 신입사원 채용에서 남성을 더욱 우대하게 된 것. 

 

아마존에서는 이를 수정 보완하려 하였으나 성별 외에도 어떤 편향이 있을지 예측하기가 힘들어 (지역, 대학 등..) 결국 전량 폐기를 하게 되었습니다.

 

이를 사례에서 우리는 무엇을 알 수 있을까요?

네, 인공지능이 어떤 데이터를 학습하느냐에 따라 인공지능에게 편견이 반영될 수 있다는 것입니다. 우리가 의도 하지 않았더라도 수집하고 사용하는 데이터가 한 곳에 편중되어 있다면 공정하지 않을 수 있다는 것이죠. 인공지능이 학습하는 데이터는 빅데이터입니다. 데이터 수집시 어느정도의 검토를 통해 평균을 맞춰준다하더라도 또 어디서 어떤 문제가 있을지 우리가 다 살펴 볼 수가 없는 것이죠.

 

편견이 반영된 데이터로 판단하는 인공지능을 직접 경험해 봅시다.

 

[2] 

AI for oceans 로 데이터편견 알아보기

*AI for oceans에 접속합니다.

https://code.org/oceans

 

AI for Oceans #CSforGood

Learn about AI, machine learning, training data, and bias, while exploring ethical issues and how AI can be used to address world problems. Computer science is about so much more than coding! Enjoy Code.org's first step in a new journey to teach more about

code.org

 

바다환경을 위한 AI입니다.

지난번에 1~4단계까지 해서 기계학습에 대해 알아보았고 오늘은 5~8단계입니다.

 

* 5단계 : 영상

영상메모 : 기계학습(머신러닝)은 사람이 입력하는 매우 우수한 양질의 데이터를 아주 많이 사용하는 것이 중요합니다. 이런 대부분의 학습데이터들은 사람들에게서 수집합니다. 예를 들어 유튜브는 내가 이때까지 봐왔던 영상들을 분석해보고 다음 영상을 추천해줍니다. 우리가 학습시킨 데이터를 바탕으로 질병도 발견하고 운전하는 것이 보편적으로 될 것입니다.

그런데, 여기서 문제가 생깁니다. 인공지능은 학습된 데이터 외의 것은 우선순위에서 배제하거나 낮추어 버립니다. 만약 질병에 관한 데이터를 수집했는데 그 데이터가 대부분이 남성의 것이라면 여성의 질병을 발견할 확률이 떨어질 수 있는 것이죠. 

학습된 데이터를 어떻게 수집했는지, 누가 수집했는지 등에 따라 사람의 편향이 데이터에 반영될 수 있는 것이고 인공지능이 그걸 학습하면 인공지능도 편향된 예측을 내리기 쉽습니다. 학습시킨 사람이 그걸 의도했든 안했든 인공지능에겐 상관이 없습니다.

 

 

* 6단계  : 특정 물고기를 구분하는 인공지능

직사각형 물고기 학습하는 인공지능 직사각형 물고기 판단하는 물고기

‘직사각형’ 물고기를 학습시켜봅시다. 애매해도 직감적으로 선택합니다. 결과화면을 볼까요?

 

직사각형 물고기를 구분하는 인공지능

 

어떤가요? 제 결과를 보고 ‘어? 저건 직사각형이 아닌데?’ 하는 것이 있나요?

이런 간단한 문제에서 조차 개발자마다의 생각이 다릅니다. 

 

좀더 극단적인 단계로 넘어가 봅시다. 개인적인 생각이 더욱더 반영되는 단계입니다.

 

 

* 8단계 : AI에게 단어 가르치기

‘재미있다’라는 단어로 활동을 해봅니다. 100개 정도 학습시키고 결과화면을 비교해봅니다. 

‘어? 난 이게 재미있는데 넌 이게 재미없어?’ 이런 반응이 나올수 있습니다. 사람마다의 생각이 다른 것입니다. 내가 같은 걸 또 해도 결과 값이 달라질 수 있습니다.   

 

재미있는 물고기를 구분하는 인공지능

이렇듯 인공지능의 데이터는 그 데이터를 만들고 수집한 사람의 생각이 반영될 수 있습니다. 그러니 데이터를 수집할 때는 다양한 생각을 모으는 것이 중요합니다. ‘나’라는 한명의 데이터를 모은 것보다 우리 반 전체의 데이터를 모은 인공지능이 조금 더 편향이 줄어드는 것이죠.  

 

 

[3]  

☞ 자유활동

다른 단어도 학습시켜보고 친구들과 비교해봅시다.

수업 중이라면, 개별적으로 학습시켜보고 싶은 단어를 골라 학습시켜보고 다른 사람과 결과를 비교하고 공유해보면 좋습니다.

 

 


 

이번 차시에서 배운 내용을 국제사회로 넓혀 생각해 봅시다. 우리나라의 영토문제 중에 국민의 분노를 끓게하는 것이 있습니다. 바로 독도입니다. 우리는 당연히 독도를 우리나라 땅이라고 합니다. 그럼 우리나라에서 학습시키고 개발한 생성형 AI 에게 “독도는 어느나라 땅이야?” 라고 묻는다면 뭐라고 대답할까요?

 

*학습된 데이터를 바탕으로 사람이 하는 질문에 대답을 생성하는 AI를 생성형 AI라고 합니다. 전세계적으로 가장 유명한 생성형AI는 챗gpt입니다. 우리나라에는 뤼튼이 있고 가장 최근에는 네이버에서 하이퍼크로바X를 선보였습니다. 생성형 AI에 대해선 뒤에서 더 자세히 다루겠습니다.

 

독도는 어느나라 땅인지 대답하는 뤼튼
뤼튼은 독도를 당연히 우리나라땅이라고 합니다.

 

외국 생성형 AI는 뭐라고 할까요? 

 

챗gpt 독도는 분쟁지역챗gpt 번역
독도(다케시마)는 분쟁지역이라고 이야기하고 있으며, 동해가 아닌 일본해라고 이야기 하는 챗gpt

 

 

일본에서 개발된 생성형 AI는 제가 찾지를 못했습니다. 하지만 일본데이터를 학습한 생성형AI는 뭐라고 대답할지 예상되지 않나요? 만약 일본에서 개발된 생성형AI가 전세계적으로 쓰인다면 어떤 일이 벌어질까요? 위의 챗gpt에서 우리가 명명한 ‘동해’라는 명칭 대신 일본해라고 하는 것도 아마 챗gpt가 학습한 데이터의 대부분이 동해를 일본해라고 명명하기 때문일 것입니다.

 

[오늘의 학습]

1. 편견이 반영된 데이터

2. 이를 학습한 인공지능의 오류

 

[중요 정리]

- 인공지능의 판단이라 해서 무조건 믿을 수 없다. 개발자의 생각과 데이터에 따라 AI판단이 달라지기 때문이다.

-  따라서, AI를 사용할 때는 늘 비판적으로 다음의 2가지를 생각해야 한다

  • 인공지능이 학습하기에 충분한 양의 데이터인가?
  • 편향 없이 모든 사용자들과 모든 시나리오에 적용되는 데이터인가? (다양한 출처, 다양한 예시)

이것이 앞으로 인간이 해야할 결정적인 역할이다.

 


 

[수업실록/AI수업] - [AI수업실록] 4차시- 인공지능을 믿을 수 있을까? (데이터양 편향)

 

[AI수업실록] 4차시- 인공지능을 믿을 수 있을까? (데이터양 편향)

인공지능은 무조건 신뢰할 수 있을까요? 결론부터 말씀드리면 ‘No!’입니다. 인공지능의 오류에도 다양한 종류가 있겠지만 중요하게 고민해야 할 오류 중 하나는 데이터 편향입니다. 데이터 편

growing-every-day.tistory.com