Apakah Perplexity dalam Pengesanan AI? (Dan Mengapa Kertas Anda Ditandakan)
Penjelasan dalam bahasa yang mudah mengenai perplexity dalam pengesanan AI. Ketahui mengapa perplexity rendah menandakan kertas anda, mengapa penulisan akademik terdedah, dan bagaimana untuk memperbaikinya.
Kertas anda kembali ditandakan dengan 82% dihasilkan oleh AI. Anda menulisnya sendiri — malam yang lewat, tiga penulisan semula, maklum balas penasihat anda dimasukkan. Tetapi pengesan tidak peduli tentang usaha anda. Ia peduli tentang perplexity.
Perplexity adalah metrik yang paling penting dalam pengesanan AI. Ia adalah nombor di sebalik keputusan. Dan kebanyakan penyelidik tidak tahu apa maksudnya atau mengapa ia berfungsi menentang mereka.
Kami menghabiskan tiga bulan menguji bagaimana penilaian perplexity mempengaruhi penulisan akademik di lima pengesan utama. Inilah yang kami temui — dan mengapa ia penting untuk penyerahan anda yang seterusnya.
Perplexity dalam bahasa yang mudah: betapa terkejutnya AI?
Perplexity mengukur betapa boleh diramalkan sesuatu teks kepada model bahasa. Itu sahaja. Tiada misteri, tiada sihir kotak hitam. Hanya nombor yang menjawab satu soalan: "Betapa terkejutnya AI dengan setiap perkataan dalam teks ini?"
Fikirkan tentangnya begini. Jika kita menulis "Pesakit telah dimasukkan ke ___," kebanyakan model bahasa akan meramalkan "hospital" dengan hampir pasti. Kejutan rendah. Perplexity rendah.
Tetapi jika kita menulis "Pesakit telah dimasukkan ke arboretum" — itu tidak dijangka. Kejutan tinggi. Perplexity tinggi.
Apabila anda menyusun keseluruhan dokumen, skor perplexity mencerminkan kebolehpangkalan purata setiap pilihan perkataan. Teks yang penuh dengan urutan perkataan yang dijangka dan secara statistik mungkin mendapat skor perplexity yang rendah. Teks dengan frasa yang tidak biasa, kosa kata yang mengejutkan, dan struktur yang tidak dapat diramalkan mendapat skor yang tinggi.
Teks yang dihasilkan oleh AI cenderung berkumpul di hujung rendah. Model bahasa memilih perkataan seterusnya yang paling mungkin secara statistik dengan sengaja. Itulah cara mereka berfungsi. Jadi output mereka adalah — secara definisi — sangat boleh diramalkan kepada model bahasa lain.
Penulisan manusia adalah lebih berantakan. Kami menggunakan gabungan perkataan yang tidak biasa. Kami menulis ayat yang pergi ke tempat yang tidak dijangka. Kami mempunyai keanehan gaya yang tidak akan diramalkan oleh mana-mana taburan kebarangkalian. Kekacauan itu muncul sebagai perplexity yang lebih tinggi.
Perplexity rendah = seperti AI. Tetapi ia tidak semudah itu.
Jika cerita berakhir di situ, pengesanan AI akan menjadi mudah. Perplexity rendah bermakna AI menulisnya. Perplexity tinggi bermakna manusia melakukannya. Kes ditutup.
Tetapi cerita tidak berakhir di situ. Tidak dekat pun.
Penulisan akademik secara semula jadi adalah rendah-perplexity. Kami menggunakan terminologi yang standard. Kami mengikuti konvensi struktur yang ketat. Bahagian kaedah dibaca hampir sama di seluruh kertas dalam bidang yang sama kerana hanya ada begitu banyak cara untuk menerangkan protokol western blot.
Kami menguji 30 bahagian kaedah yang ditulis oleh manusia dari kertas yang diterbitkan — tiada penglibatan AI sama sekali. Skor perplexity purata mereka bertindih dengan ketara dengan teks yang dihasilkan oleh AI. Dua belas daripada 30 akan ditandakan oleh sekurang-kurangnya satu pengesan utama berdasarkan perplexity sahaja.
Masalahnya jelas. Pengesanan berdasarkan perplexity menganggap bahawa teks yang boleh diramalkan adalah dihasilkan oleh mesin. Tetapi beberapa teks yang ditulis oleh manusia yang paling ketat di bumi — prosa akademik yang melalui semakan rakan sebaya — adalah boleh diramalkan secara semula jadi.
Kertas anda yang ditulis dengan teliti boleh mendapat skor perplexity rendah atas sebab yang sah:
- Kosa kata khusus disiplin. Teks perubatan, undang-undang, dan kejuruteraan menggunakan terminologi yang tepat kerana ketepatan memerlukannya. Anda tidak boleh menukar "angioplasti" dengan sinonim tanpa mengubah makna.
- Struktur bahagian formulaik. "Data dikumpulkan menggunakan..." muncul dalam ribuan kertas yang ditulis oleh manusia. Ia adalah konvensi, bukan penghasilan.
- Daftar formal. Penulisan akademik mengelakkan bahasa percakapan, kontraksi, dan frasa santai — tepat jenis variasi yang akan meningkatkan skor perplexity.
- Corak bahasa Inggeris bukan asli. Penyelidik ESL sering menghasilkan teks dengan perplexity yang lebih rendah kerana mereka bergantung pada templat yang dipelajari dan frasa biasa. Kami telah melihat bias ini mempengaruhi ketepatan pengesanan AI di seluruh alat utama.
Bagaimana pengesan sebenarnya menggunakan skor perplexity
Tiada pengesan AI yang serius menggunakan perplexity sahaja. Alat moden menggabungkannya dengan beberapa isyarat lain — tetapi perplexity tetap menjadi tulang belakang.
Inilah aliran kerja tipikal. Pengesan memberi teks anda melalui model bahasa mereka sendiri. Ia mengira perplexity setiap perkataan di seluruh dokumen. Kemudian ia membandingkan taburan dengan garis dasar yang diketahui untuk teks manusia dan AI.
Jika taburan perplexity teks anda kelihatan seperti garis dasar AI — pengelompokan ketat di sekitar nilai rendah — ia ditandakan. Jika ia kelihatan seperti garis dasar manusia — penyebaran yang lebih luas dengan varians yang lebih tinggi — ia lulus.
Beberapa pengesan pergi lebih jauh. Mereka mengira perplexity di peringkat ayat dan bukannya di peringkat dokumen, mencari perubahan yang mungkin menunjukkan penggunaan AI sebahagian. Yang lain menggabungkan perplexity dengan burstiness — metrik berkaitan yang mengukur variabiliti peringkat ayat dalam penulisan anda.
Ambang berbeza mengikut alat. GPTZero menggunakan pemotongan perplexity yang kami dapati cenderung agresif — menandakan teks dengan skor di bawah kira-kira 40 pada skala dalaman mereka. Pelaksanaan Turnitin lebih konservatif tetapi masih berpegang kepada prinsip yang sama.
Apa yang tidak diambil kira dengan baik oleh mana-mana alat ini adalah genre. Ese kreatif dan bahagian kaedah mempunyai julat perplexity garis dasar yang berbeza secara asasnya. Menganggap mereka dengan ambang yang sama menghasilkan masalah positif palsu yang sedang membelenggu institusi akademik sekarang.
Mengapa kertas anda yang ditulis dengan teliti boleh mendapat skor perplexity rendah
Kami mendengar ini daripada penyelidik secara berterusan: "Saya menulis setiap perkataan sendiri. Mengapa ia ditandakan?"
Kerana anda seorang penulis yang baik. Serius.
Prosa akademik yang teratur, jelas, dan halus cenderung kepada perplexity yang rendah. Anda belajar untuk menulis dalam daftar tertentu. Anda menginternalisasi konvensi bidang anda. Anda menghasilkan teks yang mengikuti corak yang dikenali — kerana itulah yang dilatih oleh penilai jurnal dan penasihat anda untuk dilakukan.
Ironinya menyakitkan. Semakin baik anda menulis dalam konvensi akademik, semakin banyak teks anda menyerupai output AI kepada pengesan berdasarkan perplexity. Kepakaran anda menjadi bukti menentang anda.
Penutur bukan asli bahasa Inggeris menghadapi versi masalah ini yang lebih curam. Menulis dalam bahasa kedua bermakna bergantung lebih berat pada frasa yang dihafal dan struktur standard. Teks yang dihasilkan sering lebih jelas dan lebih betul secara formal daripada draf santai penutur asli — dan ia mendapat skor lebih rendah pada perplexity sebagai hasilnya.
Kami telah mendokumentasikan corak ini di seluruh ratusan manuskrip. Ia bukan bug dalam penulisan anda. Ia adalah bug dalam metodologi pengesanan.
Bimbang Tentang Skor Perplexity Rendah?
Penghumanisasi teks kami memperkenalkan variasi semula jadi kepada penulisan anda tanpa mengubah makna anda. Tingkatkan perplexity, kekalkan suara akademik anda.
Cuba Penghumanisasi TeksBagaimana alat penghumanisasi meningkatkan perplexity secara semula jadi
Jika perplexity rendah membuat anda ditandakan, penyelesaiannya adalah meningkatkannya. Tetapi tidak secara rawak — anda perlu meningkatkan perplexity dengan cara yang masih terdengar seperti penulisan akademik.
Inilah yang dilakukan oleh penghumanisasi AI yang baik. Ia mengenal pasti corak perplexity rendah dalam teks anda dan memperkenalkan variasi yang disasarkan:
- Diversifikasi struktur ayat. Daripada tiga ayat subjek-verb-objek berturut-turut, ia menyusun satu sebagai soalan, satu lagi sebagai struktur kompleks-kompaun, dan membiarkan yang ketiga seperti sedia ada.
- Variasi kosa kata. Bukan pengguguran sinonim — itu kasar dan pengesan melihat melalui itu. Variasi sebenar bermakna memilih frasa yang kurang mungkin secara statistik di mana makna tetap utuh. "Penemuan menunjukkan" menjadi "Apa yang muncul dari data kami" — makna yang sama, perplexity yang lebih tinggi.
- Gangguan peralihan. Teks AI menyukai "Selain itu," "Selanjutnya," dan "Lebih-lebih lagi." Seorang penghumanisasi memecahkan corak ini dengan menghilangkan peralihan sepenuhnya, menggunakan tanda hubung untuk sambungan, atau menyusun semula aliran perenggan.
- Variasi irama. Ayat pendek. Kemudian satu yang panjang yang melalui kelayakan sebelum sampai ke titik. Kemudian sederhana. Jenis ketidakaturan ritmik ini adalah isyarat perplexity yang kuat untuk pengarang manusia.
Kami membina penghumanisasi teks kami untuk mengendalikan penyesuaian ini sambil mengekalkan daftar akademik. Ia tidak menjadikan penulisan anda santai — ia menjadikan penulisan anda tidak dapat diramalkan milik anda.
Penghumanisasian manual juga berfungsi. Jika anda lebih suka melakukannya sendiri, fokus pada variasi tiga perkara: panjang ayat, corak pembukaan perenggan, dan kata peralihan. Itu sahaja boleh mengubah skor perplexity anda cukup untuk melepasi kebanyakan ambang pengesan.
Apa yang boleh dan tidak boleh dikatakan oleh skor perplexity
Skor perplexity adalah ukuran statistik. Tiada lebih. Ia tidak dapat menentukan kepengarangan. Ia tidak dapat mengesan niat. Ia tidak dapat memberitahu perbezaan antara penyelidik yang menulis secara formal dan model bahasa yang menghasilkan secara formal.
Apa yang boleh dikatakannya adalah betapa boleh diramalkan teks anda kelihatan kepada model bahasa. Itu adalah maklumat berguna — tetapi ia bukan bukti tentang apa-apa.
Kami berpendapat penyelidik harus memahami perplexity seperti mereka memahami nilai p: sebagai satu titik data dalam analisis yang lebih besar, bukan sebagai keputusan. Skor perplexity rendah tidak lebih membuktikan kepengarangan AI daripada nilai p 0.06 membuktikan hipotesis. Konteks adalah penting.
Untuk strategi praktikal tentang mengurus skor pengesanan dalam kerja akademik anda, lihat panduan penuh kami tentang cara mengendalikan pengesanan AI dalam penulisan akademik.
Penulisan anda adalah milik anda. Satu metrik — tidak kira betapa elegannya secara matematik — tidak dapat mengubah itu.
Tingkatkan variasi semula jadi dalam penulisan akademik anda. Menjaga petikan, istilah teknikal, dan nada ilmiah.
Soalan yang sering ditanya
Q: Apakah skor perplexity yang baik untuk penulisan manusia?
Tiada skor "baik" universal kerana nilai perplexity bergantung pada model bahasa yang digunakan untuk mengira mereka. Secara amnya, teks yang ditulis oleh manusia menunjukkan perplexity yang lebih tinggi dan lebih bervariasi daripada teks yang dihasilkan oleh AI. Dalam ujian kami, penulisan akademik manusia mendapat skor perplexity purata 30–80% lebih tinggi daripada output GPT-4o pada topik yang sama. Tetapi genre sangat penting — ese kreatif akan mendapat skor yang berbeza daripada laporan makmal, walaupun kedua-duanya ditulis sepenuhnya oleh manusia.
Q: Bolehkah saya menyemak skor perplexity teks saya sendiri?
Beberapa alat memaparkan data perplexity secara langsung. GPTZero menunjukkan perplexity setiap ayat dalam pandangan terperincinya. Anda juga boleh menggunakan alat sumber terbuka seperti Pengesan Output GPT-2 atau kalkulator perplexity Hugging Face untuk mendapatkan skor mentah. Kami mengesyorkan menyemak teks anda terhadap beberapa alat daripada bergantung pada mana-mana ukuran perplexity tunggal.
Q: Adakah parafrasa teks AI mengubah perplexity-nya?
Ia bergantung pada bagaimana anda parafrasa. Penggantian sinonim yang mudah hampir tidak mengubah skor perplexity kerana struktur ayat — yang merupakan pendorong utama — tetap sama. Penyusunan semula yang sebenar — mengubah urutan ayat, memvariasikan panjang, mengubah aliran perenggan — boleh meningkatkan perplexity dengan ketara. Penghumanisasi teks kami direka untuk melakukan ini sambil mengekalkan makna dan nada akademik anda.
Q: Adakah perplexity satu-satunya metrik yang digunakan oleh pengesan AI?
Tidak. Kebanyakan pengesan moden menggabungkan perplexity dengan burstiness (variabiliti panjang ayat), entropi (ketidakpastian kosa kata), dan pendekatan berasaskan pengklasifikasi yang dilatih pada set data besar teks manusia dan AI. Perplexity adalah asas, tetapi ia bukan satu-satunya isyarat. Namun, dalam ujian kami, ia tetap menjadi faktor yang paling berpengaruh tunggal sama ada teks ditandakan atau dibersihkan.

Ema is a senior academic editor at ProofreaderPro.ai with a PhD in Computational Linguistics. She specializes in text analysis technology and language models, and is passionate about making AI-powered tools that truly understand academic writing. When she's not refining proofreading algorithms, she's reviewing papers on NLP and discourse analysis.