1. 여기서 말하는 false positive 의 정의
AI 텍스트 감지기에서의 false positive 는 본인이 직접 쓴 글을 도구가 ChatGPT·Claude·Gemini 가 생성한 것으로 잘못 판정해 교수·편집자·고용주에게 통보되는 순간을 가리킵니다. 업계 공개 수치는 결코 너그럽지 않습니다. GPTZero 는 자체 false positive 율을 약 0.24% 로 발표하고 있고, Originality.ai 는 독립 벤치마크 (Fritz.ai·EyeSift) 에서 잘 편집된 인간 글 기준 12~18% 가 잘못 잡힙니다. Turnitin 은 r/college 와 r/Professors의 수많은 사례 글이 있을 만큼 학내 분쟁의 단골 소스입니다. 1% 비율이라도 200명 강의 한 학기에 false positive 두 건이 산술적으로 발생합니다.
문제는 구조적입니다. 모든 상용 감지기는 GPT-4 단락 수백만 개와 그보다 작은 인간 글 말뭉치를 학습시킨 이진 분류기입니다. 평균적인 GPT-4 단락처럼 보이는 모든 것 — 매끄러운 호흡, 빈도 분포 중간대의 어휘, 길이가 비슷한 단락 — 은 분류기 입장에서 "AI" 쪽으로 기웁니다. 그런데 그건 한국 학교가 정확히 보상하는 글쓰기 스타일이기도 합니다. 가장 열심히 공부한 학생이 통계적으로 가장 위험한 위치에 놓이는 구조.
2. 본 도구가 모델링하는 4개 감지기
본 도구는 브라우저에서 어떠한 감지기 모델도 실행하지 않습니다. 대신 어디서나 계산 가능한 세 가지 시그널 — 문장 길이 분산(burstiness), 단어 빈도 희소성(perplexity proxy), 바이그램 반복률 — 을 각 감지기의 공개된 동작 방식에 맞춰 다르게 가중합니다.
- GPTZero 는 burstiness 와 log-perplexity 두 가지를 핵심으로 한다고 창업자 Edward Tian 이 여러 인터뷰에서 명시했습니다. 본 추정치는 균일한 문장 호흡에 45%, perplexity proxy (바이그램 엔트로피 + 어휘 희소성 결합) 에 45%, 나머지 10% 를 type-token ratio (어휘 다양성) 에 배분합니다.
- Originality.ai 는 4개 중 가장 공격적입니다. Fritz.ai, EyeSift, 매릴랜드대 독립 테스트에서 일관되게 인간 통제 그룹의 12~18% 를 AI 로 표시합니다. GPT-2 스타일 perplexity 모델 + 별도의 "저희소도 punisher" 가 있다고 추정됩니다. 본 추정치는 저희소 어휘에 40%, 균일성에 30%, perplexity 에 20%, 반복률에 10% 를 부여하고 모든 입력에서 일정 baseline 을 더 얹습니다 (Originality 가 평균적으로 높게 나오는 경향 반영).
- Turnitin AI 는 대학에서 실제로 돌리는 도구입니다. 소비자 도구와 달리 단락 단위 sliding window 를 사용하기 때문에, 학생이 문장별로 paraphrase 해도 반복된 표현을 찾아냅니다 (paraphrase-only humanizer 의 알려진 약점). 본 추정치는 반복 시그널에 60%, 균일성에 30% 비중을 둡니다.
- Winston AI 는 마케팅 페이지에서 직접 밝히듯 syntactic regularity 에 크게 의존하는 앙상블 분류기입니다. 실무적으로는 잘 다듬어진 글이 가장 자주 잡힙니다. 본 추정치는 문장 균일성에 45%, 저희소 어휘에 30% 비중을 둡니다.
3. 세 가지 시그널 — 일상 언어 버전
Burstiness (문장 길이 분산)
"문장 길이가 들쭉날쭉한가?" 의 다른 말입니다. 사람은 긴 복문 뒤에 짧고 단단한 단편을 던집니다. 단어 하나짜리 문장도 씁니다. 진짜요. 이렇게요. 반면 instruction-tuned LLM 은 단락마다 18~25 단어 문장으로 정착합니다. 본 도구는 문장 토큰 수의 표준편차를 평균으로 나눠 burstiness 를 계산하며, 0~1 척도에서 0.45 아래는 모든 감지기에 빨간불입니다.
Perplexity proxy (놀라움 지표)
진짜 perplexity 는 언어 모델이 필요합니다. 본 도구는 두 가지 가벼운 시그널로 근사합니다. (1) 바이그램 엔트로피 — 토큰 전이가 얼마나 예측 불가능한가, (2) 단어 빈도 희소성 — 영어 상위 600 단어 밖으로 얼마나 자주 나가는가. 높은 perplexity proxy 는 글에 "놀라운" 지역적 선택이 많다는 뜻이고, 이게 바로 GPT-4 가 학습 과정에서 깎아내는 부분입니다. 한국어 글에서는 음절 단위 토큰을 영문 단어와 결합해 측정합니다.
반복률 (Repetition)
감지기는 같은 바이그램/트라이그램이 글 전체에서 지배적일 때 민감하게 반응합니다. AI 산문은 담화 표지 ("It is important to note", "그러나", "결론적으로") 를 반복하고 명사구를 재사용 합니다. 본 도구는 최빈 바이그램 비율을 계산해 8배로 스케일합니다. 특히 Turnitin 은 sliding window 로 문장 순서를 바꿔도 반복을 찾기 때문에 이 시그널에 가장 민감합니다.
4. 본 사이트가 "humanizer" 를 만들지 않는 이유
학생들이 가장 많이 묻는 후속 질문은 "그럼 그냥 자동으로 글을 바꿔서 감지기를 통과시키는 기능 넣어줄 수 있나요?" 입니다. 답은 의도적으로 No 입니다. 이유는 세 가지.
첫째, 거의 모든 학교 학칙은 자동 AI 우회를 AI 사용 자체와 동일 위반으로 다룹니다. 진짜 본인이 쓴 글이라도 humanizer 에 한 번 통과시키면, 처음부터 회피하려던 그 범주에 정확히 들어가게 됩니다. 둘째, humanizer 는 자기 자신의 fingerprint 를 남깁니다. Originality 와 Winston 은 이미 humanizer 출력으로 학습돼 그 패턴을 인식합니다 — humanize 가 오히려 점수를 올리는 사례가 많습니다. 셋째, 더 책임감 있는 false positive 대응은 humanize 가 아니라 "사람 증거" 입니다. 작업 노트, 버전 히스토리, 친구와 주제를 논의한 채팅 로그 — 이것들은 감지기가 위조할 수 없는 영수증입니다. 영수증을 모아두는 습관은 "도구가 너 치팅했대" 라는 대화를 "내 초안 흔적이 여기 있어" 라는 대화로 바꿔놓습니다.
따라서 본 사이트의 입장은 진단은 하되, 속이는 일은 하지 않는다 입니다. 팁들은 사람 저자인 당신이 의식적으로 적용할 수 있는 휴리스틱 권고입니다 — 단편 문장 섞기, 더 구체적인 동사 선택, 본인만 알 수 있는 날짜·지명 추가. 이건 진짜 편집 행위이고, 글이 페이지 위에서 더 흥미로워지는 동시에 부산물로 감지기 점수도 내려갑니다. 학칙 위반 소지가 없습니다.
5. 자기 자신을 속이지 않고 본 도구를 쓰는 방법
가장 흔한 실수는 점수가 초록색이 될 때까지 붙여넣기-수정-붙여넣기를 반복하다가, 결국 본인 목소리가 사라진 초안을 제출하는 패턴입니다. 감지기 점수는 노이즈가 큰 대리 변수이며, 실제 목표는 글의 편집 품질입니다. 다음 워크플로우를 권장합니다.
- 초안을 붙여넣습니다. 종합 점수를 확인합니다. 30 미만이면 그만 만지고 제출하세요. 시그널은 이미 본인 편입니다.
- 30~60 사이면 하이라이트된 문장을 살펴보세요. 본인이 보기에도 가장 약한 문장과 겹치는 경우가 많습니다. 그 문장을 명료성을 위해 다시 쓰세요. 점수는 부수적으로 따라 내려옵니다.
- 60 이상인데 진짜 본인이 쓴 글이라면, 지금 즉시 버전 히스토리를 저장하세요. Google Docs 의 진행 중 화면을 타임스탬프와 함께 캡처해두세요. 그 흔적은 어떤 감지기 점수보다 교수나 인사 패널 앞에서 강한 증거가 됩니다.
- 점수 하나 때문에 단락 전체를 뜯어고치고 싶은 충동을 참으세요. 진짜 편집은 한 문장씩 고치는 것입니다. 진짜 편집 한 번에 종합 점수가 몇 점씩만 내려가는 게 정상이고, 한 단락 수정으로 20점이 폭락한다면 본인의 목소리도 같이 깨졌을 확률이 높습니다.
6. 한국어 글: 불확실성은 더 큽니다
4개 감지기 모두 영어 중심으로 학습됐습니다. 한국어 글의 false positive 율은 EyeSift 와 국내 대학 IR 부서들의 비공식 측정 기준 8~30% 까지 매우 넓게 분포합니다. 본 도구는 한국어 입력에 대해 의도적으로 15% 점수를 깎아 보여줍니다. 시그널 자체 (바이그램 엔트로피, 어휘 희소성) 가 한국어 말뭉치 학습이 부족한 감지기에서 더 신뢰도가 떨어지기 때문입니다. 본 사이트의 한국어 점수도, 상용 감지기의 한국어 점수도, 모두 "조기 경보" 수준으로만 해석하세요. 판정 근거로 쓰지 마세요.
7. 한계와 알려진 실패 모드
본 도구는 다음과 같은 예측 가능한 방식으로 틀립니다. (1) 80 단어 미만의 매우 짧은 입력은 perplexity proxy 가 안정되지 않아 노이즈가 큽니다. (2) 긴 URL·코드 블록·수식이 많은 기술 글은 본 도구의 단어 희소성 테이블 기준 인위적으로 "저희소" 로 잡혀 false positive 추정이 부풀려질 수 있습니다. (3) 진짜 사람 손이 많이 들어간 잘 다듬어진 원고가 첫 초안 보다 점수가 높게 나오는 경우가 종종 있습니다 — 다듬는 행위 자체가 균일성을 만들기 때문. (4) 한국어 글은 위에서 언급한 대로 완전히 다른 불확실성 등급입니다. 점수는 일기 예보처럼 "확률" 로 읽으세요. 보증서가 아닙니다.
8. 이미 부당하게 의심받은 경우
패닉에 빠지지 마시고, 초안과 작업 흔적을 절대 삭제하지 마세요. 가장 강한 증거는 본인의 편집 히스토리입니다 — Google Docs 의 버전 히스토리 (파일 → 버전 기록 → 버전 기록 보기), Word 의 변경 내용 추적, 친구와 주제를 논의한 카톡 로그. 거의 모든 학교에 내부 이의 신청 절차가 있습니다. 공식적으로 이의 제기하고, 영수증을 첨부하고, 어떤 감지기를 어떤 임계값으로 사용했는지 명시적으로 물어보세요. 공개된 false positive 수치 — GPTZero ~0.24% (자체), Originality.ai 12~18% (독립), Turnitin AI >1% (자체) — 를 인용하세요. 이 비율이면 200명 강의에서 매 학기 산술적으로 false positive 가 발생할 수밖에 없다는 논리적 근거가 됩니다.
마지막으로 교사 분이 이 글을 읽고 계신다면: 책임 있는 워크플로우는 감지기 점수를 판정 근거가 아니라 대화의 시작점으로 쓰는 것입니다. 학생에게 자기 초안을 직접 설명해보라고 요청하세요. 잘못된 의심은 사제 관계와 교육 기관의 신뢰를 갉아먹습니다.