AI 탐지기, 진짜 믿을 만할까? 과제 부정행위 잡을 수 있나

요즘 대학생들 사이에서 제일 뜨거운 이슈가 뭐냐면, 바로 “AI로 과제 썼는데 걸릴까?”예요.

연세대랑 서울대에서 생성형 AI 부정 사용 때문에 난리가 났잖아요. 연세대는 아예 “자수하면 봐준다” 식으로 공지까지 올렸고, 온라인 커뮤니티는 “학교가 탐지 못하니까 자수 유도하는 거 아니냐”며 난장판 됐죠.

솔직히 저도 대학 다닐 때 과제 마감 직전에 카페인 맞고 썼던 기억이 있는데, 요즘은 챗GPT한테 “3000자 분량 에세이 써줘” 하면 10초 만에 끝나버리니까… 진짜 시대가 무섭게 변했어요.

근데 교수님들은 “AI 탐지기 돌려보면 다 걸린다”고 하시고, 학생들은 “우회 프로그램 쓰면 끝”이라고 하니 대체 누구 말이 맞는 건지 혼란스럽잖아요?

그래서 오늘은 최근 논문들까지 싹 긁어모아 “AI 탐지기 성능이 진짜 어느 정도길래 이렇게 논란이 되는 걸까?”를 속 시원히 파헤쳐 보려고 해요. 결론부터 살짝 스포하자면… 교수님들 좀 당황하실 수도 있어요.

1. AI 탐지기 정확도, 숫자로 보면 놀랍다

2025년 필리핀 연구진이 2020~2024년까지 나온 논문 34개를 모아서 메타 분석한 결과가 있어요.

일반적인 AI 탐지기 평균 정확도는 50% 이상은 나오더라고요. 유료 탐지기는 평균 87%까지 찍고, 무료는 77% 정도예요.

와 처음 들으면 “그럼 꽤 잘 잡는 거 아냐?” 싶죠?

근데 여기서 진짜 중요한 게 나와요.

“탐지 회피 기법”만 써도 정확도가 그냥 폭락해요.

다른 말로 바꾸기(paraphrasing)만 해도 60% 이상 뚝 떨어지는 경우가 흔하고, 어떤 건 80%대에서 20%대까지 추락하더라고요.

쉽게 말하면, AI가 쓴 글을 또 다른 AI(예: Quillbot, Wordtune)로 한 번 돌려서 살짝 바꾸기만 해도 탐지기들이 “어… 이건 사람 같기도?” 하면서 헷갈려 버려요.

게다가 최신 모델(GPT-4, 클로드3)로 쓴 글은 옛날 모델(GPT-3.5)보다 훨씬 탐지하기 어려워요.

결국 탐지기들이 계속 “뒤처지는” 느낌이랄까요?

2. 탐지기 우회, 중학생도 할 수 있는 수준

영국·베트남 연구팀이 2024년에 직접 실험한 논문이 진짜 충격적이었어요.

터닛인, ZeroGPT, GPTZero, Copyleaks 등 유명한 탐지기 7개를 모아서 테스트했는데요.

순수 GPT-4, 클로드2로 쓴 글만 넣었을 때 평균 정확도가 고작 39.5%예요.

이미 반타작도 안 되는 수준이죠.

근데 여기에 살짝 장난만 쳤어요.

1. 철자 틀린 단어 몇 개 넣기

2. 문장 길이를 일부러 들쭉날쭉하게 만들기

3. 문장 끝에 “ㅋㅋ” 같은 말투 넣기

이렇게만 했는데 정확도가 22.2%까지 떨어졌대요.

AI는 철자 실수 거의 안 하니까, 일부러 오타 넣으면 “아 이건 사람이 썼구나!” 하고 착각한다는 거예요.

문장 길이도 AI는 보통 일정하게 쓰니까, 일부러 짧은 문장, 긴 문장 섞으면 또 헷갈려하고요.

심지어 사람 글도 제대로 못 맞춰요.

사람이 쓴 글 10개 넣었는데 “이건 인간이 썼다”고 맞춘 비율이 67%밖에 안 됐고, 15%는 사람 글인데 AI 글이라고 오탐했대요.

그러니까 교수님이 탐지기 돌려서 “너 AI 썼지?” 하면 억울하게 당할 확률도 꽤 있다는 거죠…

3. 한국어 탐지기? 더 심각하다

영어로 훈련된 탐지기들이 한국어에선 거의 망했어요.

중앙대 AI대학원 논문(2024)에서 직접 실험했는데요.

DetectGPT, RADAR 같은 모델에 GPT-3.5로 쓴 한국어 텍스트 넣었더니 AUROC(성능 지표)가 0.55~0.65 수준.

0.5가 동전 던지기랑 똑같은 확률인데, 그보다 조금 나은 정도예요.

클로드3으로 쓴 한국어는 더 최악이에요. AUROC 0.18까지 나왔대요.

0.18은… 동전 던지기보다도 못한 거예요.

왜냐면 한국어는 영어랑 문법 구조 자체가 완전히 다르거든요.

영어식 패턴으로 훈련된 탐지기가 한국어를 보면 “이게 뭐야…” 하면서 포기하는 거죠.

지금 시점에서 한국어 과제로 AI 썼다면, 탐지기로 걸릴 확률은 거의 로또 수준이에요.

4. 그럼 대학은 어떻게 해야 하나?

영국 HEPI(고등교육정책연구소)가 올해 발표한 보고서가 답을 줬어요.

영국 대학생 92%가 “AI 써봤다”고 했고, 과제·시험에 쓴 비율은 88%.

18%는 아예 AI 글 그대로 제출했다고 하네요.

HEPI가 제안한 해결책이 진짜 현실적이었어요.

“이제 모든 시험·과제에 ‘AI 스트레스 테스트’를 해라”

→ 챗GPT 최신 버전으로 문제를 풀어보고, 너무 쉽게 풀리면 그 평가 방식 자체를 바꾸라는 거예요.

예를 들어

○ 구술시험 늘리기

○ 수업 때 배운 내용 직접 써서 제출하게 하기

○ 과정 중심 평가(초안→피드백→수정안 제) 도입하기

○ AI 써도 되는 과제는 아예 허용하고, 어떻게 썼는지 발표하게 하기

탐지기로 학생 잡겠다고 시간 낭비하지 말고, 애초에 AI가 대신할 수 없는 평가를 만들라는 거죠.

솔직히 이게 제일 현명한 것 같아요.

5. 이제는 탐지기 싸움이 아니라 평가 싸움이다

지금까지 살펴본 논문들 결론을 한 문장으로 요약하면

“AI 탐지기는 정확도도 낮고, 우회도 너무 쉬워서, 부정행위 적발 도구로 쓸 수 없다”예요.

특히 한국어는 더 심각하고요.

그러니까 교수님들이 “우리는 탐지기 있다”고 겁주셔도… 솔직히 많이 겁먹을 필요는 없어요(물론 걸리면 큰일 나긴 하지만요).

중요한 건, AI가 아무리 똑똑해져도 결국 대학은 “네가 정말 배웠는지”를 확인해야 하니까요.

탐지기로 서로 눈치 싸움할 게 아니라, AI 시대에 맞는 새로운 평가를 만드는 게 답이에요.

여러분은 어떻게 생각하세요?

“내가 내는 과제는 AI가 대신할 수 있을까?”

한 번 진지하게 고민해 보세요.

그 질문에 “없다”가 답이 나오는 순간, 진짜 AI 시대의 승자예요.

저작자표시 비영리 변경금지 (새창열림)

'생활정보' 카테고리의 다른 글

"산화된 기름 구분법 4가지, 이거만 기억하세요!" 건강에 미치는 영향까지 (0)	2025.11.19
독감 백신 4가 vs 3가, 진짜 차이날까? (0)	2025.11.18
AI 가상 음란물, 2025년에도 처벌될까? 법 개정 대박 변화! (0)	2025.11.18
10만원 내면 13만원 받는다? 고향사랑기부제 세테크 정복! (0)	2025.11.18
유튜브 무한 로딩 끝내는 법 (0)	2025.11.18

AI 탐지기, 진짜 믿을 만할까? 과제 부정행위 잡을 수 있나