헛소리들이 이렇게 많이 퍼져있는 이유는 무엇일까?
1. 거짓말은 날아가고, 진실은 절뚝거리며 그 뒤를 따라간다.
"제가 2019년 여름 미국 LA에서 한 아이스크림집을 들어갔어요. 그런데 아이스크림을 주문하다가 정말 깜짝 놀랐어요. '아이스크림집 사장님이 누굴 참 닮았다...'라고 생각하던 찰나, 생각이 나버리고 맙니다. 전 여자 친구더라고요. 주문한 아이스크림을 받다가 떨어뜨릴 뻔했습니다. 세상 참 좁아요."
라고 말했다고 치자. 내가 이 말을 지어내는 데는 2분이 걸렸다. 그러나 이것이 사실인지 증명하기 위해서 당신은 몇 십배의 에너지를 쏟아야 할 것이다. 이처럼 진실은 헛소리보다 증명하기 훨씬 어렵다.
2. 언어체계는 우리의 표현을 다 담지 못한다.
우리의 언어체계는 굉장히 애매모호하다. 예를 들어 "현승이는 일을 할 때는 흡연을 하지 않는다."라고 말한다면 문자 그대로 현승이가 일할 때 흡연을 하지 않는다는 것을 뜻하기도 하지만, 일을 하지 않을 때는 흡연을 한다는 뜻을 내포하고 있기도 하다. 이런 것을 이용하면 사람들이 오해의 소지가 있는 말을 한 뒤 나중에 무죄를 주장할 수 있는 여지를 대거 안겨준다. 사람들이 문자 그대로의 의미와 함의를 이용해 헛소리를 하는 경우는 정말 많다.
3. 정보를 접하는 인터넷 뉴스의 함정
인터넷 뉴스는 어떻게 돈을 벌까? 기사가 클릭되면 사람들이 웹페이지를 방문하고, 그 웹페이지를 통한 광고수익으로 돈을 번다. 그렇다면 클릭률을 높여야 한다. 이제 정보의 질과 정확성보다는 흥미를 끄는 링크가 더 중요해진 것이다.
또한 헤드라인들은 '우리'에 관한 이야기를 만들어서 우리들을 유혹한다. '너만 모르는 사기 안 당하는 법'같은 헤드라인들은 궁금해서 클릭하게 만든다. 이런 환경 속에서는 정직하고 정보전달을 우선으로 하는 기사는 살아남을 수 없게 되고, 이런 현상은 헛소리가 퍼지는데 크게 기여하고 있다.
헛소리들이 위험한 이유
2018년도 초 인도 사용자들은 조직폭력배들에게 납치된 아이들의 모습이라고 알려진 가짜 동영상을 널리 공유했다. 이로 인해 낯선 사람에 대한 두려움이 퍼지면서 처참한 결과를 초래했다. 타밀나두에 있는 사원을 방문한 어떤 가족이 길을 묻기 위해 걸음을 멈췄다. 현지인들은 그들이 왓츠앱 영상에서 본 납치범일지도 모른다는 의심을 품었다. 군중이 모여들어 가족을 차에서 끌어내렸고 폭도들이 그들을 벌거벗겨 쇠막대와 나뭇가지로 잔인하게 때렸다. 결국 1명은 죽고, 다른 이들은 영구적인 손상을 입었다. 똑같은 가짜 얘기에 자극받은 폭도들이 수십 명의 무고한 사람들을 공격해서 때리다가 종종 죽이기도 했다.
이처럼 헛소리는 우리의 올바른 판단을 방해하는 것부터 시작하여 커다란 사건의 씨앗이 되기도 한다. 이 책은 교육을 통해 사람들의 미디어 정보 해독력과 비판적 사고를 기르도록 함으로써 오보나 허위 정보 문제를 해결하려고 한다.
그럼 세상에는 어떤 종류의 헛소리들이 판치고 있는지 살펴보자.
인과관계와 상관관계
- 인과관계는 A로 인해서 B가 일어난 경우 성립되는 관계이다.
- 상관관계는 A가 B가 어떤 값(변인)에 따라 함께 변화하는 관계이다.
여기서 주의해야 할 점은 상관관계를 통해서는 인과관계를 알 수 없다는 점이다. 상관관계는 인과관계가 성립되기 위한 여러 가지의 필요조건 중 하나이다. 상관관계를 인과관계로 착각할 경우, 흡연과 암의 상관관계를 발견한 어떤 학자가 "사람들은 암 때문에 흡연을 하는 거야!"라고 하는 것과 같다.
책에서 한 가지 재미있는 실험을 소개한다.
심리학자 스콧 겔러와 그의 동료들은 1986년 <대학생들의 맥주 음주에 관한 자연적 관찰>이라는 영향력 있는 논문에서 대학가 술집의 맥주 소비량 증가와 관련된 요소들을 살펴봤다. 연구진은 각 학생이 마시는 맥주 양을 관찰하면서 그걸 유리잔, 병, 피처 중 어떤 형태로 구입했는지 기록했다. 그리고 맥주가 담긴 용기와 마시는 양 사이에 확실한 상관관계가 있음을 알아냈다.
피처에 담긴 맥주를 마신 학생들은 잔이나 병으로 마신 학생들보다 대략 2~4배 정도의 맥주를 마셨다. 원래 연구에서는 인과관계를 주장하지 않으려고 주의했다. 그러나 이 연구 보고서가 대중매체에 보도되고 대학 캠퍼스의 알코올 남용에 관한 폭넓은 논의로 발전하면서 주장도 진화했다. "맥주를 피처에 담아 마시면 더 많이 마신다."라는 말을 "맥주를 피처에 담아 마시기 때문에 더 많이 마신다."라는 뜻으로 받아들였다. 그리고 이를 근거 삼아 "학생들이 술을 적게 마시도록 피처를 금지해야 한다."라는 주장을 펼치기 시작했다.
학생들은 피처를 주문했기 때문에 맥주를 더 많이 마시는 게 아니다. 그들은 처음부터 맥주를 많이 마실 사람들이라서 피처를 주문한 것이다! 논문이 인용되었다고 하면 사람들은 믿게 되지만, 논문을 어떻게 인용하는가에 따라서 비약이 되어버릴 수 있다.
숫자와 헛소리
저자는 말한다.
STEM 분야(과학, 기술, 공학, 의학)에서는 학생들에게 해결해야 하는 역설, 서로 조화시켜야 하는 상반된 증거, 비판해야 하는 잘못된 주장을 안겨주는 일이 좀처럼 없다. 그 결과 대학 졸업자들은 언어적 주장에 이의를 제기하거나 논리적 오류를 규명할 채비는 잘돼 있지만, 양적 주장 앞에서는 놀라울 정도로 순순히 동의하는 경향이 있다.
내가 다닌 전자전기공학부 전공수업에서는 ‘토론’을 해 본 적이 없었다. 전공과목의 수업에서는 지식을 많이 가지고 있는 교수가 지식을 배우기 위해 앉아 있는 학생들에게 일방적으로 지식을 가르쳐 줄 뿐이었다. 내가 배운 공학은 이미 답이 정해져 있는 것들이 많았다. 저자의 말이 참으로 공감되는 순간이었다.
이제 이러한 숫자들이 어떻게 우리를 속이는지 알아보자.
2개의 양의 비교에서 백분율을 사용하면 엄청난 오류가 나올 수 있다. '40% 증가', '지방 22% 감소'등 백분율 차이를 얘기하는 경우가 흔하다. 하지만 이는 무엇에 대한 비율일까? 더 낮은 값? 더 높은 값? 이 구별은 중요하다.
2017년 12월 1달 동안 비트코인 전자화폐 가격이 17일에는 개당 1만 9211달러까지 치솟았다가 13일 뒤에 1만 2609달러로 급락했다. 이는 개당 가격이 6602달러 하락한 것이다.
하지만 비율 변화는 어떨까? 34%(6602/19221)라고 해야 할까, 아니면 52%(6602/12609)라고 해야 할까?
어떤 수치를 대든 타당하겠지만, 가치 손실을 이야기할 때는 시작 값을 이용하는 게 적절한 비교이기 때문에
이 기간 동안 비트코인 가치가 34% 하락했다고 말할 수 있다.(시작 값 기준)
그러나
2017년 12월 초 비트코인 가치가 52% 과대평가됐다고 말할 수도 있다.(현재 값 기준)
뭔가가 과대평가됐다고 말할 때는 현재 가치의 최적 추정치가 비교를 위한 적절한 기준이기 때문이다. 이렇게 백분율의 표현 방법에 따라 우리가 받는 인상이 너무나도 달라진다.
여기서 한번 생각해 볼 만한 문장이 나온다.
측정치가 목적이 되면 올바른 측정은 불가능하다
이것이 무슨 말일까?
과학계에서는 인용 지표로 학술지의 품질을 측정하기 때문에 편집자들이 편법을 쓰게 됐다. 어떤 편집자는 자기네 학술지에 게재된 논문을 인용하라고 저자들에게 압력을 가한다. 어떤 학술지는 1년 중 인용될 시간이 가장 많은 1월에 과도하게 많은 논문을 발표한다. 1년 사이 발표된 많은 논문을 인용하는 연간 요약 논문을 발표하는 데도 있고, 더 많은 인용을 유도하는 경향이 있는 학문 분야나 논문 종류로 관심을 돌리기도 한다. 이런 비뚤어진 행동은 학술지 본연의 임무와 인용 평가가 품질 지표로서 발휘하는 효과를 훼손한다.
학자들 뿐만 아니라 직장에서도 승진을 위한 정량적인 지표를 기업에서 공개한다면, 모든 사람들이 그 정량적인 지표만 맞추려고 노력하는 상황이 벌어지게 될 것이다. 수치가 모든 것을 해결해 줄 것이라는 믿음은 이제부터 믿지 않는 것이 좋겠다.
빅데이터는 그냥 큰 데이터다.
4차 산업혁명과 관련된 주제로 빅데이터, AI, 머신러닝들이 화두가 되고 있다. 머신러닝은 많은 양의 데이터로 기계를 학습시켜 기계가 판단을 할 수 있도록 만들어주는 것이다. 그런데 여기서 문제가 있다. 기계는 인간의 편견에서 자유롭지 않다는 점이다.
<프로퍼블리카>와 다른 매체들은 현재 사용하는 알고리즘이 흑인 피고인을 '미래'의 범죄자로 식별하는 비율이 백인 피고인보다 거의 2배나 많고 이것 때문에 재판 전 석방, 선고, 가석방 거래에도 차이가 생긴다는 사실을 증명했다. 알고리즘을 이용하는 대출자들은 흑인 신청자와 라틴계 신청자에게 더 높은 이자를 부과한다. 아마존처럼 미국에서 가장 큰 기업들이 사용하는 자동 채용 소프트웨어는 여성보다 남성을 우선 선발한다. 기계가 편향된 사회에서 발생한 데이터를 기반으로 결정을 내리도록 훈련시키면, 기계들은 똑같은 편견을 배우고 영속한다. 이런 상황에서는 '머신러닝'보다 '기계 세뇌'라고 하는 편이 나을 수도 있다.
빅데이터, AI, 머신러닝, 딥러닝 등은 만능이 아니다. 빅데이터와 머신러닝에 의한 결과로 헛소리를 할 가능성이 매우 매우 높다. 정보기술과 데이터 처리 기술들이 빠르게 발전하면서 그 분야에 관심이 없는 일반인들에게 사기 치기 정말 쉬운 사회가 된 것 같다. 일반인들은 정보가 부족하여 어떤 기술이 어떻게 활용되고 있는지 정확하게 알기 어렵기 때문이다. 그러나 희망은 있다. 구동되는 기술을 모두 알지 못하더라도 머신러닝에서 어떤 데이터를 활용하는지, 누가 데이터 라벨링을 하는지 등의 확인방법을 통해 헛소리를 구분할 방법이 존재한다.
이 책은 위에서 이야기한 것들 외에도 상상을 초월하는 방법으로 헛소리를 하는 방법들에 대해서 예시들과 사례들을 통해 자세히 알려준다. 또한 이런 헛소리들을 어떻게 구분하는지, 어떤게 진실된 정보인지 판단하는 노하우들도 담아냈다. 정보의 포화 속에서 살아가는 우리들은 어떤 것이 진실이고 어떤 것은 나를 호도하는 헛소리인지 구분을 할 필요가 있다. 그리고 그 출발점으로 이 책을 읽어 볼 것을 권한다.
'서평' 카테고리의 다른 글
[우리의 뇌는 어떻게 배우는가] 배우는 방법을 배워보자 (0) | 2021.06.27 |
---|---|
[유전자 임팩트] 당신은 편집될 수 있다. (0) | 2021.06.13 |
[너무 놀라운 작은 뇌세포 이야기] 정신질환의 흑막, 미세아교세포 (0) | 2021.05.21 |