Качество Википедии

Несмотря на то что Википедия часто подвергается критике за низкое качество, она по-прежнему остаётся одной из самых популярных баз знаний в мире. На сегодняшний день Википедия содержит более 65 миллионов статей на различные темы. При этом каждая языковая версия редактируется независимо, поэтому качество информации может различаться в зависимости от языка.

По данным Ethnologue, люди во всём мире говорят на более чем 7 тысячах языков, из которых около 3 тысяч находятся под угрозой исчезновения. Для сравнения, статьи Википедии доступны на более чем 350 языках.

Каждый день количество статей в Википедии растёт. Создавать и редактировать их могут даже анонимные пользователи. Авторам не требуется формально подтверждать свои навыки, образование и опыт в тех или иных областях. Википедия не имеет центральной редакции или группы рецензентов, которые могли бы комплексно проверить все новые и существующие тексты. По этим и другим причинам люди часто критикуют концепцию Википедии, указывая, в частности, на низкое качество информации.

Проблемы

Статьи Википедии могут редактироваться на каждом языке независимо, что приводит к таким проблемам, как:

  • один и тот же объект (город, человек, событие и т. д.) может быть описан по-разному,
  • пользователь, как правило, должен знать эти языки, чтобы проверить или сравнить информацию.

Кроме того, сама оценка качества информации субъективна и зависит от языковой версии Википедии:

  • каждая языковая версия определяет собственные правила и стандарты,
  • стандарты могут меняться со временем.

Таким образом, в Википедии иногда можно найти ценную информацию — в зависимости от языковой версии и темы. Практически в каждой языковой версии существует система наград для лучших статей. Однако количество таких статей относительно невелико (менее одного процента). В некоторых языковых версиях существуют также другие классы качества. Тем не менее подавляющее большинство статей остаётся без оценки (в некоторых языках — более 99%).

Системы оценки качества

Каждая языковая версия Википедии может определять собственную систему оценки качества статей. Часто в каждой языковой версии существует специальная награда для статей, считающихся лучшими, — «Избранные статьи». Существует также награда для статей хорошего качества, которые не соответствуют критериям избранной статьи, — так называемые «Хорошие статьи».

Некоторые языковые версии Википедии имеют также другие классы качества, которые могут отражать «зрелость» статьи. В англоязычной Википедии, помимо высших обозначений «FA» и «GA», существуют также «A-class», «B-class», «C-class», «Start» и «Stub». В русскоязычной Википедии, помимо двух высших обозначений, есть также «Добротная статья», «Уровень I», «Уровень II», «Уровень III» и «Уровень IV». Польская Википедия имеет три дополнительных класса: «Четвёрка», «Старт» и «Заготовка».

Несмотря на одинаковые названия, эквивалентные классы между языковыми версиями могут различаться по способу оценки стандартов. Поэтому каждая языковая версия может иметь собственную модель качества, даже если языки имеют одинаковое количество классов.

Автоматическая оценка качества

В Википедии у многих статей отсутствуют классы качества, поэтому каждый читатель должен самостоятельно анализировать их содержание. Тема автоматической оценки качества статей Википедии хорошо известна в научном мире. В основном научные работы описывают наиболее развитую языковую версию Википедии — английскую, которая уже содержит более 7 миллионов статей.

С момента появления, по мере роста популярности Википедии, публикуется всё больше научных работ на эту тему. Одно из первых исследований показало, что измерение объёма содержания может помочь определить степень «зрелости» статьи Википедии. Работы в этом направлении показывают, что, как правило, статьи более высокого качества длинные, используют множество сносок, редактируются сотнями авторов и имеют тысячи правок.

Задача автоматической оценки качества может быть решена алгоритмами машинного обучения, в частности с помощью классификационных моделей, основанных на сравнении статей Википедии различных классов качества, оценённых пользователями Википедии. В таких моделях можно использовать более 200 метрик качества, связанных с полнотой, достоверностью, объективностью, надёжностью, читаемостью, релевантностью, стилем и актуальностью. Часть из них зависит от языка и может быть получена с помощью методов NLP. Кроме того, такие модели могут использовать метрики, связанные с SEO: индекс видимости, PageRank, CheiRank, ранг 2D, сигналы из социальных сетей и др.

Более подробная информация — в научных публикациях. Часть результатов была внедрена в различные инструменты.