AI 탐지의 혼란이란 무엇입니까? (그리고 당신의 논문이 플래그가 붙은 이유)
AI 탐지의 당혹스러움에 대한 간단한 영어 설명입니다. 낮은 복잡성으로 인해 논문이 표시되는 이유, 학문적 글쓰기가 취약한 이유 및 해결 방법을 알아보세요.
귀하의 논문이 82% AI 생성으로 표시되어 돌아왔습니다. 당신이 직접 작성했습니다. 늦은 밤, 3번의 재작성, 조언자의 피드백이 반영되었습니다. 그러나 탐지기는 당신의 노력에는 관심이 없습니다. 그것은 당혹감을 걱정합니다.
당혹스러움은 AI 탐지에서 가장 중요한 단일 지표입니��. 판결 뒤에 붙은 숫자입니다. 그리고 대부분의 연구자들은 그것이 무엇을 의미하는지, 왜 그것이 그들에게 불리하게 작용하는지 전혀 모릅니다.
우리는 5가지 주요 탐지기를 통해 Perplexity 점수가 학술 작문에 어떤 영향을 미치는지 테스트하는 데 3개월을 보냈습니다. 우리가 발견한 내용과 그것이 다음 제출에 중요한 이유는 다음과 같습니다.
평범한 영어로 말하는 당혹감: AI는 얼마나 놀랐나요?
Perplexity는 텍스트 조각이 언어 모델에 대해 얼마나 예측 가능한지를 측정합니다. 그게 다야. 미스터리도 없고 블랙박스 마법도 없습니다. 하나의 질문에 답하는 숫자입니다. "이 텍스트의 각 단어에 대해 AI가 얼마나 놀랐습니까?"
이렇게 생각해보세요. "환자가 ___에 입원했습니다"라고 쓰면 대부분의 언어 모델은 거의 확실하게 "병원"을 예측할 것입니다. 낮은 놀라움. 낮은 혼란.
하지만 "환자가 수목원에 입원했습니다"라고 쓴다면 이는 예상치 못한 일입니다. 매우 놀랍습니다. 높은 당혹감.
전체 문서를 하나로 묶을 때 당황도 점수는 모든 단어 선택의 평균 예측 가능성을 반영합니다. 예상되고 통계적으로 가능성이 있는 단어 시퀀스로 가득 찬 텍스트는 낮은 난해성 점수를 얻습니다. 특이한 표현, 놀라운 어휘, 예측할 수 없는 구조를 갖춘 텍스트는 높은 평가를 받습니���.
AI가 생성한 텍스트는 낮은 쪽에서 클러스터되는 경향이 있습니다. 언어 모델은 설계에 따라 통계적으로 가장 가능성이 높은 다음 단어를 선택합니다. 그것은 말 그대로 그들이 작동하는 방식입니다. 따라서 그들의 출력은 정의에 따라 다른 언어 모델에 대해 매우 예측 가능합���다.
인간의 글쓰기는 더 지저분합니다. 우리는 특이한 단어 조합을 사용합니다. 우리는 예상치 못한 곳으로 가는 문장을 씁니다. 확률 분포로는 예측할 수 없는 문체적인 특징이 있습니다. 그 지저분함은 더 높은 당혹감으로 나타납니다.
낮은 복잡성 = AI와 유사합니다. 그러나 그렇게 간단하지는 않습니다.
이야기가 여기서 끝났다면 AI 탐지는 간단할 것입니다. 복잡성이 낮다는 것은 AI가 작성했다는 의미입니다. 높은 당혹감은 인간이 그랬다는 것을 의미합니다. 사건이 종결되었습니다.
그러나 이야기는 거기서 끝나지 않습니다. 가깝지도 않아요.
학문적 글쓰기는 본질적으로 복잡성이 낮습니다. 우리는 표준화된 용어를 사용합니다. 우리는 엄격한 구조적 관례를 따릅니다. 웨스턴 블롯 프로토콜을 설명하는 방법이 너무 많기 때문에 방법 섹션은 동일한 분야의 논문 전체에서 거의 동일하게 읽혀집니다.
우리는 출판된 논문에서 인간이 작성한 30가지 방법 섹션을 테스트했으며 AI는 전혀 관여하지 않았습니다. 그들의 평균 당혹감 점수는 AI가 생성한 텍스트와 상당히 겹쳤습니다. 30개 중 12개는 당혹스러움만을 토대로 적어도 하나의 주요 탐지기에 의해 표시되었을 것입니다.
문제는 ���명합니다. Perplexity 기반 탐지에서는 예측 가능한 텍스트가 기계에서 생성된 것으로 가정합니다. 그러나 지구상에서 가장 엄격하게 인간이 쓴 텍스트 중 일부(동료 검토를 거친 학술 산문)는 본질적으로 예측 가능합니다.
신중하게 작성된 논문은 완벽하게 타당한 이유로 낮은 난제 점수를 받을 수 있습니다.
- 분야별 어휘. 의학, 법률 및 엔지니어링 텍스트는 정확성이 요구되기 때문에 정확한 용어를 재사용합니다. 의미를 바꾸지 않고는 "혈관성형술"을 동의어로 바꿀 수 없습니다.
- 공식적인 섹션 구조. "데이터는 다음을 사용하여 수집되었습니다."는 사람이 작성한 수천 개의 논��에 나타납니다. 세대가 아니라 관습입니다.
- 정식 등록. 학문적 글쓰기는 구어체, 축약형 및 일상적인 표현을 피합니다. 이는 바로 난해성 점수를 높이는 일종의 변형입니다.
- 원어민이 아닌 영어 패턴. ESL 연구자들은 학습된 템플릿과 일반적인 표현에 의존하기 때문에 복잡성이 낮은 텍스트를 생성하는 경우가 많습니다. 우리는 이러한 편향이 모든 주요 도구 전반의 AI 감지 정확도에 영향을 미치는 것을 확인했습니다.
탐지기가 실제로 Perplexity 점수를 사용하는 방법
심각한 AI 탐지기는 당혹감을 단독으로 사용하지 않습니다. 최신 도구는 이를 여러 다른 신호와 결합하지만 당혹감은 여전히 백본으로 남아 있습니다.
일반적인 파이프라인은 다음과 같습니다. 탐지기는 자체 언어 모델을 통��� 텍스트를 제공합니다. 전체 문서에서 단어당 혼란을 계산합니다. 그런 다음 분포를 인간 및 AI 텍스트에 대해 알려진 기준선과 비교합니다.
텍스트의 난해함 분포가 AI 기준과 유사하면(낮은 값 주위로 밀집되어 있음) 플래그가 지정됩니다. 인간의 기준선(더 넓은 분산과 더 높은 분산)처럼 보이면 통과합니다.
일부 탐지기는 더 나아갑니다. 문서 수준이 아닌 문장 수준에서 복잡성을 계산하여 부분적인 AI 사용을 나타낼 수 있는 변화를 찾습니다. 다른 사람들은 글의 문장 수준 변화를 측정하는 관련 지표인 난해함과 폭발성을 결합합니다.
임계값은 도구에 따라 다릅니다. GPTZero는 우리가 발견한 공격적인 경향이 있는 난관 컷오프를 사용합니다. 즉, 내부 척도에서 대략 40점 미만의 점수로 텍스트에 플래그를 지정합니다. Turnitin의 구현은 보다 보수적이지만 여전히 동일한 원칙을 따릅니다.
이러한 도구 중 어느 것도 잘 설명되지 않는 것은 장르입니다. 창의적인 에세이와 방법 섹션은 근본적으로 다른 기준 혼란 범위를 갖습니다. 이를 동일한 기준으로 처리하면 현재 교육 기관을 괴롭히고 있는 잘못된 긍정 문제가 발생합니다.
주의 깊게 작성한 논문이 낮은 난도 점수를 받을 수 있는 이유
우리는 연구자들로부터 이런 말을 끊임없이 듣습니다. "모든 단어는 제가 직접 썼습니다. 왜 플래그가 붙었나요?"
당신은 좋은 작가이기 때문입니다. 진지하게.
잘 조직되고 명확하며 세련된 학문적 산문은 난해함이 적은 경향이 있습니다. 특정 레지스터에 쓰는 법을 배웠습니다. 당신은 당신 분야의 관습을 내면화했습니다. 인식 가능한 패턴을 따르는 텍스트를 생성합니다. 왜냐하면 저널 리뷰어와 자문가가 그렇게 하도록 교육했기 때문입니다.
아이러니는 고통스럽다. 학문적 관례 내에서 더 잘 작성할수록 텍스트는 난해성 기반 탐지기에 대한 AI 출력과 더 유사해집니다. 귀하의 전문 지식은 귀하에 대한 증거가 됩니다.
영어가 모국어가 아닌 사람들은 이 문제의 훨씬 더 심각한 버전에 직면합니다. 제2외국어로 글을 쓴다는 것은 암기된 문구와 표준 구조에 더 많이 의존한다는 것을 의미합니다. 결과 텍스트는 원어민이 작성한 초안보다 더 명확하고 형식적으로 정확하며 결과적으로 난해성 점수가 더 낮습니다.
우리는 수백 개의 원고에 걸쳐 이 패턴을 문서화했습니다. 당신이 쓴 글의 버그가 아닙니다. 탐지 방법론의 버그입니다.
Try ProofreaderPro.ai Free
Proofread, humanize, and edit your academic writing with AI — no credit card required.
Get Started Free휴머나이저 도구가 자연스럽게 혼란을 증가시키는 방법
낮은 복잡성으로 인해 문제가 발생하면 해결책은 이를 높이는 것입니다. 하지만 무작위로 하는 것은 아닙니다. 학문적 글쓰기처럼 들리는 방식으로 복잡성을 높여야 합니다.
이것이 바로 좋은 AI 휴머나이저가 하는 일입니다. 텍스트에서 복잡성이 낮은 패턴을 식별하고 타겟 변형을 도입합니다.
- 문장 구조 다양화. 주어-동사-목적어 세 문장이 연속되는 대신 하나는 의문문으로, 하나는 복합복합체 구조로 재구성하고, 세 번째는 그대로 남겨둡니다.
- 어휘 차이. 동의어 회전이 아닙니다. 이는 조잡한 표현이며 감지기가 이를 꿰뚫어 봅니다. 실제 분산은 의미가 그대로 유지되는 통계적으로 가능성이 낮은 표현을 선택하는 것을 의미합니다. "결과가 제시하는 것"은 "우리 데이터에서 나타난 것"이 됩니다. 즉, 동일한 의미, 더 높은 당혹감입니다.
- 전환 중단. AI 텍스트는 "Additionally", "Furthermore" 및 "Moreover"를 좋아합니다. 휴머나이저는 전환을 완전히 삭제하거나 연결에 대시를 사용하거나 단락 흐름을 재구성하여 이러한 패턴을 깨뜨립니다.
- 리듬 변주. 짧은 문장. 그런 다음 지점에 착륙하기 전에 예선을 통과하는 긴 과정입니다. 그럼 중간. 이런 종류의 리듬적 불규칙성은 인간의 저작에 대한 강력한 당혹감을 나타내는 신호입니다.
우리는 학업 기록을 보존하면서 이러한 조정을 처리하기 위해 텍스트 휴머나이저를 구축했습니다. 그것은 당신의 글을 캐주얼하게 만들지 않습니다. 그것은 당신의 글을 예측할 수 없게 당신의 글로 만듭니다.
수동 인간화도 작동합니다. 직접 해보고 싶다면 문장 ���이, 문단 시작 패턴, 전환 단어 등 세 가지 요소를 변화시키는 데 집중하세요. 그것만으로도 대부분의 검출기 임계값을 지울 수 있을 만큼 난해성 점수를 이동할 수 있습니다.
Perplexity 점수로 알 수 있는 것과 알 수 없는 것
Perplexity 점수는 통계적 측정입니다. 더 이상은 없습니다. 저자임을 결정할 수는 없습니다. 의도를 감지할 수 없습니다. 형식적으로 글을 쓰는 연구자와 형식적으로 생성하는 언어 모델의 차이를 구분할 수 없습니다.
이를 통해 알 수 있는 것은 텍스트가 언어 모델에 얼마나 예측 가능한지입니다. 그것은 유용한 정보입니다. 그러나 그것은 어떤 증거도 아닙니다.
우리는 연구자들이 p-값을 이해하는 방식으로 복잡성을 이해해야 한다고 생각합니다. 즉, 평결이 아닌 더 큰 분석의 하나의 데이터 포인트로 이해해야 합니다. 낮은 Perplexity 점수는 0.06의 p-값이 가설을 반증하는 것과 마찬가지로 AI 작성자임을 더 이상 증명하지 못합니다. 상황이 중요합니다.
학업에서 탐지 점수를 관리하는 데 대한 실용적인 전략은 학술적 글쓰기에서 AI 탐지를 처리하는 방법에 대한 전체 가이드를 참조하세요.
당신의 글은 당신의 것입니다. 수학적으로 아무리 훌륭하더라도 단일 측정항목으로는 이를 변경할 수 없습니다.
자주 묻는 질문
Q: 인간의 글쓰기에 적합한 Perplexity 점수는 얼마입니까?
Perplexity 값은 이를 계산하는 데 사용되는 언어 모델에 따라 달라지므로 보편적인 "좋은" 점수는 없습니다. 일반적으로 사람이 작성한 텍스트는 AI가 생성한 텍스트보다 더 높고 가변적인 난해함을 보여줍니다. 테스트에서 인간의 학문적 글쓰기는 동일한 주제에 대해 GPT-4o 출력보다 ��균 당혹감이 30~80% 더 높았습니다. 그러나 장르는 엄청나게 중요합니다. 창의적인 에세이는 모두 사람이 쓴 경우에도 실험실 보고서와 다르게 점수를 매길 것입니다.
Q: 내가 작성한 텍스트의 Perplexity 점수를 확인할 수 있나요?
일부 도구는 복잡성 데이터를 직접 표시합니다. GPTZero는 상세 보기에서 문장당 혼란을 보여줍니다. GPT-2 Output Detector 또는 Hugging Face의 당혹감 계산기와 같은 오픈 소스 도구를 사용하여 원시 점수를 얻을 수도 있습니다. 단일 난해성 측정에 의존하기보다는 여러 도구를 사용하여 텍스트를 확인하는 것이 좋습니다.
Q: AI 텍스트를 바꿔 말하면 난해함도 바뀌나요?
어떻게 의역하느냐에 따라 다릅니다. 간단한 동의어 대체는 주요 동인인 문장 구조가 동일하게 유지되기 때문에 난해성 점수를 거의 이동시키지 않습니다. 문장 순서 변경, 길이 변경, 단락 흐름 변경과 같은 진정한 재구성은 복잡성을 크게 증가시킬 수 있습니다. 우리의 텍스트 휴머나이저는 사용자의 의미와 학문적 어조를 그대로 유지하면서 정확히 이 작업을 수행하도록 설계되었습니다.
Q: 메트릭 AI 감지기가 사용하는 유일한 것은 당혹성입니까?
아니요. 대부분의 최신 감지기는 난해함과 버스트(문장 길이 변화), 엔트로피(어휘의 예측 불가능성), 인간 및 AI 텍스트의 대규모 데이터 세트에 대해 훈련된 분류자 기반 접근 방식을 결합합니다. 당혹감은 기초이지만 그것이 유일한 신호는 아닙니다. 즉, 우리 테스트에서는 텍스��가 플래그 지정되었는지 삭제되었는지 여부에 가장 큰 영향을 미치는 단일 요소로 남아 있었습니다.

Ema is a senior academic editor at ProofreaderPro.ai with a PhD in Computational Linguistics. She specializes in text analysis technology and language models, and is passionate about making AI-powered tools that truly understand academic writing. When she's not refining proofreading algorithms, she's reviewing papers on NLP and discourse analysis.