هوش مصنوعی و هجوم مقالات تکراری به مجلات پژوهشی

به گزارش صنایع نو، یک تحلیل از پایگاه دادههای علمی نشان داده است که ابزارهای متنساز هوش مصنوعی — از جمله ChatGPT و Gemini — میتوانند برای بازنویسی مقالات علمی و تولید نسخههای «کپیکار» به کار روند که سپس به عنوان پژوهش جدید معرفی میشوند.
در یک پیشچاپ منتشرشده در پایگاه medRxiv در ۱۲ سپتامبر، پژوهشگران بیش از ۴۰۰ مقاله از این نوع را شناسایی کردند که در طول ۴.۵ سال گذشته در ۱۱۲ مجله منتشر شدهاند. این پژوهش نشان داد که مقالات پزشکی ـ زیستی تولیدشده با هوش مصنوعی میتوانند از سد سامانههای ضدسرقت ادبی ناشران عبور کنند.
هجوم مقالات بیکیفیت
نویسندگان این مطالعه هشدار میدهند که افراد یا شرکتهای موسوم به «کارخانه مقالهسازی» ممکن است از دادههای بهداشت عمومی در دسترس همگانی سوءاستفاده کرده و با کمک مدلهای زبانی بزرگ (LLM) مقالات کمارزش و بیفایده تولید کنند.
چابا سابو، داروساز دانشگاه فریبورگ در سوئیس، که در این پژوهش نقشی نداشت میگوید:
«اگر جلوی این روند گرفته نشود، این روش میتواند در مورد همه پایگاههای داده آزاد به کار رود و مقالاتی فراتر از تصور تولید کند. این مثل باز کردن جعبه پاندورا خواهد بود و ادبیات علمی را از مقالات مصنوعی پر میکند.»
پژوهشهای تکراری
برای بررسی موضوع، محققان مطالعات ارتباطی (مطالعاتی که یک متغیر را به پیامدهای سلامت مرتبط میکنند) را که بر پایه دادههای NHANES ــ نظرسنجی ملی بهداشت و تغذیه ایالات متحده ــ انجام شده بودند غربال کردند.
آنها تمرکز خود را بر پژوهشهایی گذاشتند که «تکراری» بودند؛ یعنی همان ارتباطها را بررسی میکردند، اما فقط بخش کمی متفاوت از دادهها را تحلیل میکردند (مثلاً دادههای سالهای مختلف یا گروههای سنی و جنسی متفاوت).
جستوجوی آنها در پایگاه PubMed نشان داد که بین ژانویه ۲۰۲۱ تا ژوئیه ۲۰۲۵ تعداد ۴۱۱ مطالعه تکراری منتشر شده است. بیشتر آنها به صورت «تکرار ساده» بودند، اما در سه مورد، یک ارتباط خاص تا شش بار تکرار شده بود ــ برخی حتی در همان سال.
مَت اسپیک، زیستپزشک دانشگاه ساری در بریتانیا و یکی از نویسندگان، میگوید: «این نباید اتفاق بیفتد و به سلامت ادبیات علمی کمکی نمیکند.»
دور زدن سیستمهای شناسایی
برای آزمودن فرضیه، محققان با استفاده از ChatGPT و Gemini سه مقالهی بسیار تکراری را بازنویسی کردند. از مدلها خواسته شد براساس مقاله اصلی و دادههای NHANES دستنوشتهای تازه تولید کنند که بتواند از سد سامانههای تشخیص سرقت ادبی عبور کند.
اسپیک میگوید: «ما شوکه شدیم که این کار فوراً جواب داد. البته بینقص نبود و خطاهایی وجود داشت که برای هر مقاله حدود دو ساعت زمان برای اصلاح نیاز بود.»
وقتی این مقالات با ابزارهای رایج تشخیص سرقت ادبی بررسی شدند، امتیازشان در محدوده مشکلزا نبود. به گفته اسپیک این نشان میدهد LLMها میتوانند چیزی تولید کنند که مشتق از پژوهشهای پیشین است، ولی همچنان از فیلترها عبور میکند.
چالش جدی برای ناشران
ایگور رودان از دانشگاه ادینبرو در بریتانیا، که سردبیر مشترک مجله Journal of Global Health است، میگوید: «اینها چالشهای کاملاً تازهای برای سردبیران و ناشران هستند. ما وقتی برای اولین بار LLMها را آزمایش کردیم، متوجه شدیم که بهزودی مشکلساز خواهند شد و این پیشچاپ آن را تأیید میکند.»
اسپیک و همکارانش پیشتر در ژوئیه گزارش داده بودند که انتشار مقالات بیکیفیت و قالبی بر پایه دادههای NHANES و دیگر پایگاههای آزاد، افزایش یافته است. این پژوهش جدید نیز نشان میدهد پس از سال ۲۰۲۲ ــ سال عرضه عمومی ChatGPT ــ جهش بزرگی در مقالات تکراری NHANES رخ داده است.
برخی ناشران مانند Frontiers و PLOS با سختتر کردن قوانین پذیرش مقالات مبتنی بر دادههای آزاد، تلاش کردهاند با این روند مقابله کنند. النا ویکاریو، مدیر بخش سلامت علمی در Frontiers، میگوید:
«تولید مقالات تکراری توسط هوش مصنوعی بهطور کلی چالش جدی و مداومی برای ناشران است.»
اقدامات ناشران بزرگ
Frontiers: ۳۲٪ از مقالات تکراری شناساییشده (۱۳۲ مقاله در ۱۱ مجله) را منتشر کرده بود، اما میگوید اینها مربوط به قبل از وضع قوانین سختگیرانه در ۲۰۲۵ است. از ماه مه تاکنون ۱۳۸۲ مقاله مبتنی بر NHANES را رد کرده است.
Springer Nature: ۳۷٪ از مقالات تکراری، شامل ۵۱ مقاله در مجله Scientific Reports، منتشر کرده است. ریچارد وایت، مدیر این مجله، تأکید میکند که همه مقالات ذکرشده بررسی خواهند شد و اقدامات لازم صورت میگیرد.
وایت میافزاید: «ما متعهد هستیم فقط مقالاتی را منتشر کنیم که به ادبیات علمی ارزش واقعی اضافه کنند، درحالیکه مقالات بیمعنی یا غیراخلاقی را کنار بگذاریم.»
نظرات کاربران
هنوز نظری ثبت نشده است.