questionet

자연어를 반드시 시계열 데이터라고만 봐야 할까? 본문

Deep questions/시간을 두고 답해 볼 문제들

자연어를 반드시 시계열 데이터라고만 봐야 할까?

orthanc 2021. 2. 17. 10:53

실시간으로 생성되는 발화의 경우는 분명 시계열 데이터다.
문장의 의미가 시간순으로만 해석되는 경우에도 시계열 데이터다.

하지만 인간이 쓰고 말한 모든 언어 데이터가 과연 시계열적일까?

첫번째 아이디어

시간에 따른 순서에 구애 받지 않는, 더 나아가면 인과 관계에 종속되지 않는 말하기 또는 쓰기가 있을 수 있다.
어쩌면 이런 종류의 말하기,  쓰기야말로
인간과 구별되지 않는, 어쩌면 인간을 뛰어넘는 AI가 되기 위해 가져야할 능력이라고 할 수 있다.
왜냐하면 우리가 창의적인 생각을 떠올리는 가장 빠르고 쉬운 방법은
기존에 있던 생각들의 순서를 뒤엎고 인과관계를 무시해 새로운 연결, 패턴을 만들어 내는 것이기 때문이다.

두번째 아이디어

어떤 완성된 글 하나를 시계열 데이터가 아니라 일종의 이미지 데이터라고 생각할 순 없을까?
하나의 글이 (예컨대 예이츠의 시 라든가, 카프카의 단편, 니체의 소품) 예술작품과 같이
그 자체로 더 이상 더해지거나 덜어질 게 없는 상태라면,
그리고 그 예술작품처럼 완성된 하나의 글을 이루고 있는 문단, 문장, 단어들을
마치 이미지에서 단계적으로 뽑아내는 feature라고 간주할 수는 없을까?
더 구체적으로 말하면,
시인, 소설가들에게는 각자의 필체, 문법이 있고
즐겨 쓰는 단어, 비유법, 문장 구조
소위 문체라는 것이 있다.

텍스트 형태의 예술작품이 인간을 감화시키고 감동시키는 것은
바꿔 말해 '설득' 시켰다는 말이 된다.
그렇다면 텍스트의 어떤 요소들이 인간을 설득시켜내는지를
컴퓨터가 학습하게 할 수 있다면
컴퓨터가 인간에게 설득을 시도하게 할 수 있다.

이런 방법은 어떨까
똑같은 주제, 소재를 가지고 쓴 여러 작가들의 글이 있을 수 있다.
예를 들어 아기, 가난, 모순 등등
여기서 레이블은 주제 혹은 소재다.
어떤 유능한 평론가가 있어 모든 시대 모든 공간에 있었던 유명한 작가들의 글들을
주제별로 소재별로 구분을 해놓고서 레이블을 달아놓았다고 해보자.
이제 입력값은 문장 혹은 단편들이 될 것이다.
이 데이터를 가지고 학습한 프로그램은
단순히 '가난'이라는 소재의 의미와 그것이 어떤 주제를 가질 수 있는지만 학습하는 데 그치는 것이 아니라
가난은 어떤 문제, 갈등을 일으키고 그것이 어떻게 해소될 수 있는지를 학습할 수도 있으며
가난에 대한 어떤 결론에 관해 인간을 설득시키는 문체와 문법까지 학습하게 될 수도 있지 않을까?

세번째 아이디어
텍스트가 가능하다면
음성, 음악 분야에도 적용가능할 것이다.

Comments