Это удалось сделать с помощью машинного обучения. Всего было проанализировано около 2,6 миллиона исследований в области онкологии, которые проводились в период с 1999 по 2024 год.
Руководил процессом профессор Адриан Барнетт из Школы общественного здравоохранения и социальной работы и Австралийского центра медицинских услуг и инноваций (AusHSI).
250 тыс. недостоверных статей были обнаружены путем сравнения и поиска общих элементов со статьями, которые уже были отозваны по подозрению в фальсификации.
«Существуют своеобразные «фабрики научных исследований» - компании, которые продают поддельные или некачественные научные работы. Они буквально штампуют такие исследования в промышленных масштабах», - отметил профессор Барнетт. – Продавая авторские права и уже готовые научные исследования, такие «фабрики» зачастую используют переработанный текст, неудобные формулировки или подложные данные и изображения».
Ученые использовали систему под названием BERT распознавать едва уловимые особенности, свойственные известным уже произведениям тех самых «фабрик научных исследований». При тестировании на уже проверенном материале система правильно идентифицировала подозрительные документы в 91% случаев.
«По сути, мы создали научный спам-фильтр, который действует схожим образом, что и электронная почта, которая распознает нежелательные сообщения, выявляя фальсифицированные работы», - прокомментировал профессор Барнетт.
В результате масштабного анализа было обнаружено, что:
- За два десятилетия число таких подозрительных статей резко возросло: примерно с 1% в начале 2000-х годов до более 16% в 2022 году;
- Эта проблема характера для тысяч журналов крупнейших издательств, в том числе и авторитетных изданий;
- Поддельные научные труды наиболее явно проявляется в таких областях, как молекулярная биология рака и лабораторные исследования на ранних стадиях;
- Особенно много подозрительных публикаций связаны с такими заболеваниями, как рак желудка, печени, костей и легких.
Три научных журнала уже опробовали этот инструмент в рамках редакционной проверки. Это позволило редакторам выявить потенциально сфабрикованные рукописи до того, как они были отправлены на рецензирование.
«Полученные результаты показывают, что проблема с научными исследованиями рака гораздо серьезнее, чем думает большинство людей», - отметил профессор Барнетт.
Machine Learning-Based Screening of Potential Paper Mill Publications in Cancer Research: Methodological and Cross-Sectional Study, BMJ (2026). DOI: 10.1136/bmj-2025-087581