컴퓨터 vs 책: CAPTCHA OCR reCAPTCHA

화요일, 3월 11, 2008

[B급프로그래머] 구글 CAPTCHA 깨졌나?

[새소식] CAPTCHA를 능가하는 reCAPTCHA라는 글에서 CAPTCHA 동작 원리에 대해 설명한 적이 있었다. 다시 한번 설명하자면 CAPTCHA는 특정 글자 집합 뒤에 배경을 넣거나 글자를 왜곡해서 컴퓨터가 아닌 사람만 인식하도록 만드는 일종의 튜링 테스트이다.

그런데, 구글에서 사용하는 CAPTCHA를 스패머들이 깨버렸을 가능성을 다룬 분석 기사가 올라와서 B급 프로그래머를 심난하게 만들고 있다. 스패머들이 스팸봇을 돌려 gmail에 계정을 자동으로 생성한 다음에 스팸 편지를 뿌리기 시작하면 대책이 없기 때문이다. 요즘 부쩍 gmail 계정으로 스팸 편지가 많이 들어오고 있다는 느낌이 드는데 이와 관련이 있을지도 모르겠다.

하지만 도대체 어떻게 CAPTCHA를 깨버렸을까? 리니지 공장처럼 CAPTCHA 공장을 돌려서 사람이 풀게 했나? 아니면 야후 CAPTCHA 깨버리기처럼 알고리즘적으로 뭔가 헛점을 파악했을까?

열명이 지켜도 도둑 한 명 못 막는다는 속담이 있듯이, 이번에도 스패머의 승리인가? 1년에 스팸을 3만 5천 통 정도 받는다는 통계 수치가 좀더 올라갈지도 모르겠다는 생각을 해본다.

EOB

금요일, 5월 25, 2007

[새소식] CAPTCHA를 능가하는 reCAPTCHA

스팸 발송자와 일반 사용자 사이에 벌어지는 전투는 정말 치열하다. 스팸봇이 웹 사이트에 접근하지 못하도록 막기 위한 방어 시스템인 CAPTCHA는 "Completely Automated Public Turing test to tell Computers and Humans Apart"라는 설명이 의미하듯이 사람과 컴퓨터를 구분하는 튜링 테스트 기법을 활용한다. 이에 뒤질새라 스팸 편지 전송기도 이미지를 활용해서 스팸 필터기를 무력화시키는 방법을 동원하기 시작했다. 컴퓨터가 문자 인식 기술로 판독하기 어렵도록 CAPTCHA를 응용한 방법으로 편지 본문 내용을 이미지로 만들어서 보내기 때문에 상당히 머리가 아프다.

물론 요즘은 일부 간단한 CAPTCHA를 무력화하는 기술도 슬슬 등장하기 시작했지만, 여기에 대해서는 눈감아주도록 하고, 오늘은 CAPTCHA를 좀더 생산적인 시스템으로 바꾸는 reCAPTCHA를 소개하려고 한다.

reCAPTCHA 프로젝트를 진행하게 된 동인은 간단하다. 전세계 수 많은 사람들이 스팸봇을 피하기 위한 유일한 목적으로 글자 놀이를 하는 과정에서 시간 낭비가 너무 심하지 않은가? 통게에 따르면 전세계적으로 하루 150,000 시간 정도가 CAPTCHA 해석에 쓰여지고 있다고 한다. 그렇다면 이런 황금같은 시간을 활용할 방법이 없을까?

여기서 reCAPTCHA가 등장한다. reCAPTCHA는 OCR로 읽어들인 문자를 CAPTCHA 인증을 받으면서 사람이 한 단어씩 풀어내도록 만드는 기술을 탑재하고 있다. 다음 그림을 한번 살펴보자.

그림은 사람들이 CAPTCHA 인증 과정에서 단어 둘을 입력하도록 지시하는 창인데, 단어 하나는 이미 확실하게 밝혀져 있으며, 나머지 단어는 밝혀지지 않은 단어이다. 사용자가 두 단어를 입력해서 이미 확실하게 밝혀져 있는 단어가 맞으면 나머지 단어도 맞을거라는 추측이 가능하다(이렇게 생각할 수 있는 이유? 컴퓨터가 아니라 사람이 입력했을테니. :))

reCAPTCHA를 사용하면 디지털 도서관 프로젝트에 엄청난 도움이 된다. 현재까지는 단순히 스캔한 원본 그대로를 PDF로 바꾸거나 100% 확실하다고 믿지 못하는 OCR 기술을 사용해서 부분 디지털화가 가능했지만, 전 세계에 수 많은 사용자가 수작업(?)으로 이를 지원할 경우 OCR로 1차 가공한 원본을 디지털로 훨씬 더 빠르고 정확하게 바꿀 수 있기 때문이다.

현재 reCAPTCHA는 인터넷 어카이브 프로젝트를 지원하고 있다.

EOB