Исследования
С момента основания Википедии всё больше исследований посвящается этой свободной энциклопедии. Научные работы в области оценки качества информации особенно важны.
Качество Википедии
Несмотря на то, что Википедию часто критикуют за низкое качество, она по-прежнему остаётся одной из самых популярных баз знаний в мире. В настоящее время Википедия содержит более 65 миллионов статей на различные темы. При этом каждая языковая версия редактируется отдельно, поэтому качество информации может различаться в зависимости от языка.
Согласно данным Ethnologue, люди в мире говорят на более чем 7 тысячах языков, из которых почти 3 тысячи находятся под угрозой исчезновения. Для сравнения, статьи Википедии доступны на более чем 350 языках.
Каждый день число статей в Википедии растёт. Их могут создавать и редактировать даже анонимные пользователи. Авторам не нужно формально подтверждать свои навыки, образование и опыт в определённых областях. В Википедии нет центральной редакции или группы рецензентов, которые могли бы комплексно проверить все новые и существующие тексты. По этим и другим причинам люди часто критикуют концепцию Википедии, в частности указывая на низкое качество информации.
Проблемы
Википедию можно редактировать на каждом языке независимо, что приводит к таким проблемам, как:
- один и тот же объект (город, человек, событие и т.д.) может быть описан по-разному,
- пользователю обычно нужно знать эти языки, чтобы проверить/сравнить информацию.
Кроме того, оценка качества информации сама по себе субъективна и зависит от языка Википедии:
- каждая языковая редакция определяет свои правила и стандарты,
- стандарты могут меняться со временем.
Таким образом, в Википедии иногда можно найти ценную информацию — в зависимости от языковой версии и тематики. Практически в каждой языковой версии есть система наград для лучших статей. Однако число таких статей относительно невелико (менее одного процента). В некоторых языковых версиях также существуют другие оценки качества. Тем не менее, подавляющее большинство статей остаётся неоценёнными (в некоторых языках — более 99%).
Системы оценки качества
Каждая языковая редакция Википедии может определять собственную систему оценки качества статей. Часто в каждой языковой версии есть специальная отметка для статей, которые считаются лучшими — «Избранные статьи» (Featured Articles). Существует также отметка для качественных, достойных статей, не соответствующих критериям избранных — они называются «Хорошие статьи» (Good Articles).
Некоторые языковые версии Википедии также имеют другие оценки качества, которые могут отражать «зрелость» статьи. В английской Википедии, помимо высших отметок «FA» и «GA», есть также «A-class», «B-class», «C-class», «Start» и «Stub». В русской Википедии, помимо двух высших отметок, также есть «Добротная статья», «I уровень», «II уровень», «III уровень» и «IV уровень». В польской Википедии есть три дополнительных класса: «Четвёрка», «Start» и «Stub».
Несмотря на одинаковые названия, эквивалентные классы между языковыми версиями могут отличаться по способу оценки стандартов. Поэтому каждая языковая версия может иметь собственную модель качества, даже если эти языки имеют одинаковое количество оценок.
Автоматическая оценка качества
В Википедии многие статьи не имеют оценок качества, поэтому каждый читатель должен вручную анализировать их содержание. Тема автоматической оценки качества статей Википедии известна в научном мире. В основном научные работы описывают наиболее развитую языковую версию Википедии — английскую, которая уже содержит более 6 миллионов статей.
С момента основания и с ростом популярности Википедии публикуется всё больше научных работ на эту тему. Одно из первых исследований показало, что измерение объёма контента может помочь определить степень «зрелости» статьи Википедии. Работы в этом направлении показывают, что в целом более качественные статьи длинные, используют множество ссылок, редактируются сотнями авторов и имеют тысячи правок.
Задача автоматической оценки качества может быть решена с помощью алгоритмов машинного обучения, в частности с использованием классификационных моделей, основанных на сравнении статей Википедии с различными оценками качества, выставленными пользователями Википедии. В таких моделях можно использовать более 200 мер качества, связанных с полнотой, достоверностью, объективностью, надёжностью, читаемостью, релевантностью, стилем и актуальностью. Некоторые из них зависят от языка и могут быть получены с помощью методов NLP. Кроме того, такие модели могут использовать SEO-метрики: индекс видимости, PageRank, CheiRank, 2D rank, социальные сигналы и другие.
Более подробную информацию можно найти в научных публикациях. Некоторые результаты реализованы в различных инструментах.