AI 감지기 false positive 완전 가이드

burstiness·perplexity·반복률이 실제로 무엇이며, 본 사이트가 humanizer 를 만들지 않는 이유.

Author 김지광 (운영자)Last updated balpekr micro-SaaS

1. 여기서 말하는 false positive 의 정의

AI 텍스트 감지기에서의 false positive 는 본인이 직접 쓴 글을 도구가 ChatGPT·Claude·Gemini 가 생성한 것으로 잘못 판정해 교수·편집자·고용주에게 통보되는 순간을 가리킵니다. 업계 공개 수치는 결코 너그럽지 않습니다. GPTZero 는 자체 false positive 율을 약 0.24% 로 발표하고 있고, Originality.ai 는 독립 벤치마크 (Fritz.ai·EyeSift) 에서 잘 편집된 인간 글 기준 12~18% 가 잘못 잡힙니다. Turnitin 은 r/colleger/Professors의 수많은 사례 글이 있을 만큼 학내 분쟁의 단골 소스입니다. 1% 비율이라도 200명 강의 한 학기에 false positive 두 건이 산술적으로 발생합니다.

문제는 구조적입니다. 모든 상용 감지기는 GPT-4 단락 수백만 개와 그보다 작은 인간 글 말뭉치를 학습시킨 이진 분류기입니다. 평균적인 GPT-4 단락처럼 보이는 모든 것 — 매끄러운 호흡, 빈도 분포 중간대의 어휘, 길이가 비슷한 단락 — 은 분류기 입장에서 "AI" 쪽으로 기웁니다. 그런데 그건 한국 학교가 정확히 보상하는 글쓰기 스타일이기도 합니다. 가장 열심히 공부한 학생이 통계적으로 가장 위험한 위치에 놓이는 구조.

2. 본 도구가 모델링하는 4개 감지기

본 도구는 브라우저에서 어떠한 감지기 모델도 실행하지 않습니다. 대신 어디서나 계산 가능한 세 가지 시그널 — 문장 길이 분산(burstiness), 단어 빈도 희소성(perplexity proxy), 바이그램 반복률 — 을 각 감지기의 공개된 동작 방식에 맞춰 다르게 가중합니다.

  • GPTZero 는 burstiness 와 log-perplexity 두 가지를 핵심으로 한다고 창업자 Edward Tian 이 여러 인터뷰에서 명시했습니다. 본 추정치는 균일한 문장 호흡에 45%, perplexity proxy (바이그램 엔트로피 + 어휘 희소성 결합) 에 45%, 나머지 10% 를 type-token ratio (어휘 다양성) 에 배분합니다.
  • Originality.ai 는 4개 중 가장 공격적입니다. Fritz.ai, EyeSift, 매릴랜드대 독립 테스트에서 일관되게 인간 통제 그룹의 12~18% 를 AI 로 표시합니다. GPT-2 스타일 perplexity 모델 + 별도의 "저희소도 punisher" 가 있다고 추정됩니다. 본 추정치는 저희소 어휘에 40%, 균일성에 30%, perplexity 에 20%, 반복률에 10% 를 부여하고 모든 입력에서 일정 baseline 을 더 얹습니다 (Originality 가 평균적으로 높게 나오는 경향 반영).
  • Turnitin AI 는 대학에서 실제로 돌리는 도구입니다. 소비자 도구와 달리 단락 단위 sliding window 를 사용하기 때문에, 학생이 문장별로 paraphrase 해도 반복된 표현을 찾아냅니다 (paraphrase-only humanizer 의 알려진 약점). 본 추정치는 반복 시그널에 60%, 균일성에 30% 비중을 둡니다.
  • Winston AI 는 마케팅 페이지에서 직접 밝히듯 syntactic regularity 에 크게 의존하는 앙상블 분류기입니다. 실무적으로는 잘 다듬어진 글이 가장 자주 잡힙니다. 본 추정치는 문장 균일성에 45%, 저희소 어휘에 30% 비중을 둡니다.

3. 세 가지 시그널 — 일상 언어 버전

Burstiness (문장 길이 분산)

"문장 길이가 들쭉날쭉한가?" 의 다른 말입니다. 사람은 긴 복문 뒤에 짧고 단단한 단편을 던집니다. 단어 하나짜리 문장도 씁니다. 진짜요. 이렇게요. 반면 instruction-tuned LLM 은 단락마다 18~25 단어 문장으로 정착합니다. 본 도구는 문장 토큰 수의 표준편차를 평균으로 나눠 burstiness 를 계산하며, 0~1 척도에서 0.45 아래는 모든 감지기에 빨간불입니다.

Perplexity proxy (놀라움 지표)

진짜 perplexity 는 언어 모델이 필요합니다. 본 도구는 두 가지 가벼운 시그널로 근사합니다. (1) 바이그램 엔트로피 — 토큰 전이가 얼마나 예측 불가능한가, (2) 단어 빈도 희소성 — 영어 상위 600 단어 밖으로 얼마나 자주 나가는가. 높은 perplexity proxy 는 글에 "놀라운" 지역적 선택이 많다는 뜻이고, 이게 바로 GPT-4 가 학습 과정에서 깎아내는 부분입니다. 한국어 글에서는 음절 단위 토큰을 영문 단어와 결합해 측정합니다.

반복률 (Repetition)

감지기는 같은 바이그램/트라이그램이 글 전체에서 지배적일 때 민감하게 반응합니다. AI 산문은 담화 표지 ("It is important to note", "그러나", "결론적으로") 를 반복하고 명사구를 재사용 합니다. 본 도구는 최빈 바이그램 비율을 계산해 8배로 스케일합니다. 특히 Turnitin 은 sliding window 로 문장 순서를 바꿔도 반복을 찾기 때문에 이 시그널에 가장 민감합니다.

4. 본 사이트가 "humanizer" 를 만들지 않는 이유

학생들이 가장 많이 묻는 후속 질문은 "그럼 그냥 자동으로 글을 바꿔서 감지기를 통과시키는 기능 넣어줄 수 있나요?" 입니다. 답은 의도적으로 No 입니다. 이유는 세 가지.

첫째, 거의 모든 학교 학칙은 자동 AI 우회를 AI 사용 자체와 동일 위반으로 다룹니다. 진짜 본인이 쓴 글이라도 humanizer 에 한 번 통과시키면, 처음부터 회피하려던 그 범주에 정확히 들어가게 됩니다. 둘째, humanizer 는 자기 자신의 fingerprint 를 남깁니다. Originality 와 Winston 은 이미 humanizer 출력으로 학습돼 그 패턴을 인식합니다 — humanize 가 오히려 점수를 올리는 사례가 많습니다. 셋째, 더 책임감 있는 false positive 대응은 humanize 가 아니라 "사람 증거" 입니다. 작업 노트, 버전 히스토리, 친구와 주제를 논의한 채팅 로그 — 이것들은 감지기가 위조할 수 없는 영수증입니다. 영수증을 모아두는 습관은 "도구가 너 치팅했대" 라는 대화를 "내 초안 흔적이 여기 있어" 라는 대화로 바꿔놓습니다.

따라서 본 사이트의 입장은 진단은 하되, 속이는 일은 하지 않는다 입니다. 팁들은 사람 저자인 당신이 의식적으로 적용할 수 있는 휴리스틱 권고입니다 — 단편 문장 섞기, 더 구체적인 동사 선택, 본인만 알 수 있는 날짜·지명 추가. 이건 진짜 편집 행위이고, 글이 페이지 위에서 더 흥미로워지는 동시에 부산물로 감지기 점수도 내려갑니다. 학칙 위반 소지가 없습니다.

5. 자기 자신을 속이지 않고 본 도구를 쓰는 방법

가장 흔한 실수는 점수가 초록색이 될 때까지 붙여넣기-수정-붙여넣기를 반복하다가, 결국 본인 목소리가 사라진 초안을 제출하는 패턴입니다. 감지기 점수는 노이즈가 큰 대리 변수이며, 실제 목표는 글의 편집 품질입니다. 다음 워크플로우를 권장합니다.

  1. 초안을 붙여넣습니다. 종합 점수를 확인합니다. 30 미만이면 그만 만지고 제출하세요. 시그널은 이미 본인 편입니다.
  2. 30~60 사이면 하이라이트된 문장을 살펴보세요. 본인이 보기에도 가장 약한 문장과 겹치는 경우가 많습니다. 그 문장을 명료성을 위해 다시 쓰세요. 점수는 부수적으로 따라 내려옵니다.
  3. 60 이상인데 진짜 본인이 쓴 글이라면, 지금 즉시 버전 히스토리를 저장하세요. Google Docs 의 진행 중 화면을 타임스탬프와 함께 캡처해두세요. 그 흔적은 어떤 감지기 점수보다 교수나 인사 패널 앞에서 강한 증거가 됩니다.
  4. 점수 하나 때문에 단락 전체를 뜯어고치고 싶은 충동을 참으세요. 진짜 편집은 한 문장씩 고치는 것입니다. 진짜 편집 한 번에 종합 점수가 몇 점씩만 내려가는 게 정상이고, 한 단락 수정으로 20점이 폭락한다면 본인의 목소리도 같이 깨졌을 확률이 높습니다.

6. 한국어 글: 불확실성은 더 큽니다

4개 감지기 모두 영어 중심으로 학습됐습니다. 한국어 글의 false positive 율은 EyeSift 와 국내 대학 IR 부서들의 비공식 측정 기준 8~30% 까지 매우 넓게 분포합니다. 본 도구는 한국어 입력에 대해 의도적으로 15% 점수를 깎아 보여줍니다. 시그널 자체 (바이그램 엔트로피, 어휘 희소성) 가 한국어 말뭉치 학습이 부족한 감지기에서 더 신뢰도가 떨어지기 때문입니다. 본 사이트의 한국어 점수도, 상용 감지기의 한국어 점수도, 모두 "조기 경보" 수준으로만 해석하세요. 판정 근거로 쓰지 마세요.

7. 한계와 알려진 실패 모드

본 도구는 다음과 같은 예측 가능한 방식으로 틀립니다. (1) 80 단어 미만의 매우 짧은 입력은 perplexity proxy 가 안정되지 않아 노이즈가 큽니다. (2) 긴 URL·코드 블록·수식이 많은 기술 글은 본 도구의 단어 희소성 테이블 기준 인위적으로 "저희소" 로 잡혀 false positive 추정이 부풀려질 수 있습니다. (3) 진짜 사람 손이 많이 들어간 잘 다듬어진 원고가 첫 초안 보다 점수가 높게 나오는 경우가 종종 있습니다 — 다듬는 행위 자체가 균일성을 만들기 때문. (4) 한국어 글은 위에서 언급한 대로 완전히 다른 불확실성 등급입니다. 점수는 일기 예보처럼 "확률" 로 읽으세요. 보증서가 아닙니다.

8. 이미 부당하게 의심받은 경우

패닉에 빠지지 마시고, 초안과 작업 흔적을 절대 삭제하지 마세요. 가장 강한 증거는 본인의 편집 히스토리입니다 — Google Docs 의 버전 히스토리 (파일 → 버전 기록 → 버전 기록 보기), Word 의 변경 내용 추적, 친구와 주제를 논의한 카톡 로그. 거의 모든 학교에 내부 이의 신청 절차가 있습니다. 공식적으로 이의 제기하고, 영수증을 첨부하고, 어떤 감지기를 어떤 임계값으로 사용했는지 명시적으로 물어보세요. 공개된 false positive 수치 — GPTZero ~0.24% (자체), Originality.ai 12~18% (독립), Turnitin AI >1% (자체) — 를 인용하세요. 이 비율이면 200명 강의에서 매 학기 산술적으로 false positive 가 발생할 수밖에 없다는 논리적 근거가 됩니다.

마지막으로 교사 분이 이 글을 읽고 계신다면: 책임 있는 워크플로우는 감지기 점수를 판정 근거가 아니라 대화의 시작점으로 쓰는 것입니다. 학생에게 자기 초안을 직접 설명해보라고 요청하세요. 잘못된 의심은 사제 관계와 교육 기관의 신뢰를 갉아먹습니다.

학생·교사 자주 묻는 질문은 FAQ 에서, 검사 화면은 으로 돌아가서 확인하세요.