우리가 세계에서 보고 들었던 것

우리가 세계에서 보고 들었던 것 — 박승순의 <Tell Me What You See>

 

인공지능의 미래를 점치는 말에는 막연한 기대와 불안이 공존한다. 어떤 쪽이든 이는 인공지능이 조금씩 인간의 예측범위로부터 엇나가고, 인간과 점점 달라지고 있다는 데서 기인한다. 우리는 이미 인공지능의 가능성을 완전히 파악하지 못하고 있으며, 앞으로 스멀스멀 생겨날 그들의 마음 역시 단번에 읽어내지 못할 것이다. 인간과 다른 존재가 되어가고 있는 이 인공지능을 이해하기 위해 우리가 할 수 있는 것은, 인간에게도 그러하듯 그들에게 질문을 던지고 그 대답을 들어보는 것뿐인지도 모른다.

매체음악가 박승순의 신작 영상 <Tell Me What You See>는 인공지능에게 이 세계를 어떻게 보는지를 묻고 그 대답을 관찰한다. 작가는 인공지능에게 다섯 장의 이미지를 보여주고, 인공지능은 이 이미지를 문장으로 정의하고, 2017년에 태어난 ‘뉴로스케이프’는 그에 상응하는 사운드스케이프를 생성해낸다. 박승순과 이종필이 개발한 뉴로스케이프는 “풍경을 감상할 수 있는 것을 넘어 그와 연관된 환경의 소리를 추론하고, 일종의 인공적 사운드스케이프를 생성할 수 있는” 인공지능 시스템이다. <Tell Me What You See>는 이러한 메커니즘을 거쳐 오늘날의 인공지능이 한 이미지를 보고 과연 어디까지 사유할 수 있는지를 묻는다. 그것이 이미지를 보고 추론한 소리든, 이미지에 감도는 정서든, 이미지 너머에 존재하는 맥락이든, 혹은 그 무엇이든.

예컨대 이런 식이다. 인공지능은 초원에 위치한 원자력 발전소에서 연기가 피어오르는 장면을 본다. 이미지 하단에 있는 초원의 풍경은 더할 나위 없이 평화로워 보이지만, 중앙에 솟아있는 네 개의 콘크리트 구조물과 그 위에서 뿜어져 나오는 엄청난 양의 연기는 분명 자연스럽지 않아 보인다. 이에 관한 사전 지식이 있는 사람들은 그 연기가 심각한 대기오염의 원인이 될 것이라거나 원자력 발전소 자체가 위험천만한 사고의 가능성을 품고 있으리라 추측할 수 있겠다. 즉 이 장면은 일종의 문제 상황 혹은 문제를 잠재한 상태에 가깝다. 인공지능은 이 이미지를 보고 초원, 하늘, 구름, 연기, 발전소, 시골이라는 정확한 키워드를 뽑아냈지만, 원자력 발전소에 관한 정보는 소거해버리고 이를 “하늘에 구름이 있는 큰 녹지”로 정의한다. 중요한 맥락을 파악하지 못한 인공지능은 순진하게도 정답을 비껴간다.

관객들이 보게 되는 것은 인공지능이 이미지를 독해하는 이 과정의 ‘역순’이다. 영상은 그 이미지의 정의에서 출발해 뉴로스케이프가 생성한 사운드스케이프, 그리고 원본 이미지까지 인공지능의 사고회로를 차례차례 거슬러 올라간다. 이 작품이 관객에게 제안하는 것은 단순히 인공지능의 생각을 파악하는 것이 아니라 텍스트-소리-이미지로 이어지는 그 역추적 과정에서 관객 또한 어떤 이미지를 상상하고, 궁극적으로는 인공지능이 본 이미지와 내가 상상한 이미지의 ‘차이’을 감지하는 것이다.

그 차이를 극대화하기 위해 작가는 원자력 발전소 사진을 포함하여 꽤 문제적인 이미지들을 선정했다. 이미지는 총 다섯 장이었고, 인공지능은 남은 네 이미지를 이렇게 정의한다. “새장 안의 사람”, “빗속에서 산책하는 사람들”, “배가 가득 찬 항구”, “해변에 누워 있는 소년”. 이 텍스트와 그로부터 생성된 인공적 사운드스케이프는 상당히 매끈하게 맞물리며, 그 소리는 가짜라고 생각되지 않을 정도로 꽤 생생하다. 이를테면 “새장 안의 사람”이라는 텍스트가 화면에 나올 때는 여러 종류의 새소리와 사람의 웃음소리가 들려오고, “빗속에서 산책하는 사람들”에서는 추적추적 내리는 빗소리와 사람들의 말소리가 들리는 식이다. 그러나 마침내 이미지와 그 이미지의 진짜 캡션이 등장하는 마지막 부분에서 관객은 모종의 충격을 받게 된다.

 

(후략)

 

전문: 아시아문화원 2018 크리에이터스 인 랩 결과자료집(발간예정)