Исследования

Несмотря на то, что Википедию часто критикуют за ее низкое качество , она по-прежнему остается одной из самых популярных баз знаний в мире. . Статьи в этой энциклопедии создаются и редактируются на более чем 300 различных языках. В настоящее время Википедия содержит более 55 миллионов статей на самые разные темы.

С каждым днем ​​количество статей в Википедии растет. Их могут создавать и редактировать даже анонимные пользователи. Авторам не нужно официально демонстрировать свои навыки, образование и опыт в определенных областях. В Википедии нет центральной редакционной группы или группы рецензентов, которые могли бы всесторонне проверять все новые и существующие тексты. По этим и другим причинам люди часто критикуют концепцию Википедии, в частности, указывая на низкое качество информации.

Несмотря на это, в Википедии иногда можно найти ценную информацию - в зависимости от языковой версии и тематики. Практически в каждой языковой версии есть система наград за лучшие статьи. Однако количество этих статей относительно невелико (менее одного процента). В некоторых языковых версиях есть и другие оценки качества. Однако подавляющее большинство статей не имеют оценки (на некоторых языках более 99%).

Автоматическая оценка качества статей Википедии

Итак, в Википедии многие статьи не имеют оценок качества, поэтому каждый читатель должен вручную анализировать их содержание. Тема автоматической оценки качества статей Википедии в научном мире известна. В основном в научных трудах описывается наиболее развитая языковая версия Википедии - английская, которая уже содержит более 6 миллионов статей.

С момента основания и с ростом популярности Википедии появляется все больше и больше научных публикаций на эту тему. Одно из первых исследований показало, что измерение объема контента может помочь определить степень «зрелости» статьи в Википедии. Работы в этом направлении показывают, что в целом качественные статьи длинные, содержат много ссылок, редактируются сотнями авторов и имеют тысячи редакций.

Задачу автоматической оценки качества можно решить с помощью алгоритмов машинного обучения, особенно с помощью моделей классификации, основанных на сравнении статей Википедии с разными уровнями качества, которые были оценены пользователями Википедии. В таких моделях можно использовать более 200 показателей качества, связанных с полнотой, достоверность, объективность, надежность, удобочитаемость, релевантность, стиль и актуальность. Некоторые из них зависят от языка и могут быть получены с помощью методов НЛП. Кроме того, такие модели могут использовать показатели, связанные с SEO: индекс видимости, PageRank, CheiRank, 2D-рейтинг, социальные сигналы и другие.

Дополнительную информацию можно найти в научных публикациях. Некоторые результаты реализованы в различных инструментах.

Scroll to top