Views/Overview

동영상 강좌를 책처럼 편하게 읽을 수 있을까

어­리 2013. 12. 1. 20:39

글을 쓰다 보니 주제가 끊임없이 길고 무거워져서 원래 페이스북에 쓰던 글을 결국 본 블로그로 끌고 왔다.


동영상 강좌의 인기가 폭발하고 있지만 나는 아직 동영상 강좌가 책으로 쓰인 강좌에 비해 낫다는 생각이 안 든다. 동영상 강좌는 한 편에 하나의 주제만 담을수록 편하고, 허술한 동영상은 켜 두고 보기도 힘들다. 반면에 책은 꽤 방대한 내용을 만들어도 소화하는데 무리가 없을 뿐만 아니라, 다소 허술한 글이라도 사람을 피곤하게 만들지는 않는다. 이 둘을 비교해 보자면 글은 순서를 무시하고 대강 읽을 수도 있고, 전산화된 문서는 검색으로 내용을 찾을 수도 있는 등 수많은 원인이 있다. 그래서 아직도 우리는 책을 사용하고, 글을 쓴다.

왜 동영상은 글처럼 대강 보거나 검색할 수 없을까. 그 이유는 간단하다. 책은 텍스트이기 때문이다. 텍스트는 가장 오래된 역사를 지닌 언어적 정보의 매개체이다. 다시 말해, 어떤 정보가 텍스트로 작성되어 있다면 그 정보는 원시적 형태로 주어진 것이라는 사실을 알 수 있다. 텍스트로 작성된 정보를 어떻게 다루어야 하는가에 대한 연구는 컴퓨터의 발명 이전부터 있어 왔다. 지금 컴퓨터로 구현된 정보 처리 기술은 인류 역사와 문명의 산물인 것이다.

텍스트에 대해서 컴퓨터가 어느 수준으로 똑똑해졌는지를 알고 싶다면 구글을 보면 된다. 구글에 '사진술'을 검색하면 'photography'는 물론 '사진학', '사진학과' 등 수많은 유사한 의미의 검색 결과가 함께 나온다. 기계학습의 성과는 놀랍다. 단어들 간의 의미 분류를 찾는 것이 이 일의 핵심이 아님을 알 수 있다. 정보 처리 기술은 한 언어로 쓰인 글을 다른 언어로 번역하고, 그것을 이용해 내용을 학습하며, 내용을 학습한 결과를 다시 언어 간 번역에 반영하는 데 이르른 것이다.

한편 축음술과 사진술은 그리 오래 되지 않은 기술이며, 영화도 마찬가지이다. 좋은 소리와 좋은 영상은 분명히 우리의 마음을 움직인다. 하물며 이들의 시공간적 특성을 결합시켜 만든 동영상은 두말할 나위도 없다. 그러나 축음술과 사진술이 오래 되지 않은 기술이라는 것이 우리의 발목을 잡는다. 만약 기록된 소리와 기록된 화면이 우연히 텍스트만큼이나 일찍 발명되었다면, 소리와 화면의 정보에 대한 연구가 충분히 진행되었을 것이다. 그리고 우리는 책을 읽듯 동영상도 편히 '읽을' 수 있을 것이다.

그러면 우리는 앞으로 무엇을 해야 하는가. 우리 앞에 두 가지 방식이 있다. 하나는 지금처럼 수요에 맞추어 기술을 만들어 내는 것이다. 소리와 화면을 나타내는 기술이 있기 때문에, 소리와 화면을 파동의 집합으로 분해하고, 소리에서 목소리와 악기 소리를 분리하고, 사진에서 얼굴을 찾는 기술이 발전해 왔다. 구글은 유튜브의 동영상들을 토대로 영상에서 물리적인 물체를 구별해 내는 학습 기술을 공개했다.

그러나 이런 기술은 기술을 위한 기술이다. 텍스트에 비유하자면 손으로 글씨를 쓰는 기술로부터 비롯된 것으로, 손으로 쓴 텍스트로부터 문자를 추출하거나 필적을 감지하는 등의 기술이 여기에 해당한다. 문자열이나 필적은 특정 부류의 사람들이 의미있게 여기는 정보일 뿐, 그 자체가 텍스트의 본질인지는 불분명하다. 이런 접근은 사실 소리와 화면, 그리고 이들의 결합에 대한 본질적인 고찰과는 거리가 멀다.

한편 두 번째 방식은 소리와 화면에 어떤 정보가 담길 수 있는지에 관한 정성적인 연구이다. 이는 XHTML과 온톨로지 의미론과도 관련이 있다. 텍스트의 본질에 대해서는 유사 이래로 이런 연구가 지겹도록 오랫동안 행해져 왔다. 그리고 그 결실의 일부로 우리는 하이퍼텍스트 문서에 대해 XHTML로 정형화된 의미론을 정의할 수 있었다. 비록 XHTML은 발전하는 컴퓨터 기술을 따라가지 않고 꿋꿋이 실패한 모델이지만, XHTML만큼 완비된 온톨로지 모델은 없을 것이다.

XHTML은 우아하게 재구성할 수 있는 하이퍼텍스트의 정보 모델이다. 비록 모든 텍스트 기반 정보가 기존의 온톨로지 모델로 우아하게 재구성될 수는 없지만, 어떤 매체에 그런 프레임의 유무는 그 매체의 활용에 대한 무궁무진한 가능성과 직결된다. 지금은 아무도 소리에도, 화면에도 이와 같은 의미론을 제시한 바가 없다. XHTML2가 망하고 HTML5가 흥한 이유는 이 때문이다. HTML5를 나무랄 생각은 없다. 그것이 오늘날의 문서에 대한 합당한 모델이기 때문이다.

이런 관점으로 얻을 수 있는 결론이 몇 가지 있다. RDF는 접근성을 높여 주는 데이터가 아니라 그저 메타데이터인 것과 마찬가지로, 동영상에 자막을 붙이는 것도 접근성을 높여 준다고 보기 힘들다는 사실이다. 자막은 동영상 플레이어에서 영상과 병행 재생되는 텍스트 기반의 또 다른 미디어일 뿐이다. 텍스트를 무조건 앞에서 1000자 자른다고 1000자 요약이 되지 않듯, 소리도 고속 재생을 한다고 요약되는 것이 아니다.

미래의 동영상은 어떨까? 글쎄, 사실 이미지에 대해서는 위에서 말한 '요약'에 해당하는 심 카빙(seam carving)이라는 좋은 예가 있다. 오디오에 대해서도 같은 게 가능할까? 동영상을 색인해 두고 요약하거나 검색하는 것이 가능할까? 물론 이쯤 되면 동영상은 텍스트와 동등해진다. 나는 XHTML처럼 모든 동영상을 의미 기반으로 재구성하고, 눈과 귀에는 그로부터 생성된 정보가 제공되도록 해야 한다는 것은 아니다. 동영상이 텍스트만큼이나 의도된 정보라는 확신조차도 지금 내게는 없다. 아무렴 어떤가. 일단 적절한 과학이 있다면, 기술은 그것을 토대로 꽃을 피울 것이다. 하이퍼텍스트가 하이퍼텍스트 고유의 의미론을 만들었듯, 앞에서 말한 '기술을 위한 기술'도 끊임없이 과학을 발전시킬 것이다.