Как выявлять фейки автоматически? — КиберПедия 

Адаптации растений и животных к жизни в горах: Большое значение для жизни организмов в горах имеют степень расчленения, крутизна и экспозиционные различия склонов...

Археология об основании Рима: Новые раскопки проясняют и такой острый дискуссионный вопрос, как дата самого возникновения Рима...

Как выявлять фейки автоматически?

2021-12-11 26
Как выявлять фейки автоматически? 0.00 из 5.00 0 оценок
Заказать работу

Задачу распознавания фейков решают классификаторы, обученные с помощью алгоритмов машинного или глубокого обучения. В общем случае они получают на вход текст статьи со всеми метаданными (заголовок, автор, рубрика, ссылки на источники, дата публикации) и выводят оценку, насколько данная статья похожа на фейк или реальную новость.

В разработке подобных моделей нет ничего необычного: необходимо собрать данные для обучения (с разметкой их истинности или ложности), определиться с набором атрибутов, выбрать алгоритм обучения, настроить параметры. Как правило, фейковые новости распространяются по сети иначе, чем правдивые, и этот факт можно использовать для обучения модели — добавить в перечень атрибутов сведения о последующей "жизни" новости: репосты, лайки, данные пользователей, которые продвигают новость и т.д.

Поскольку данные представляют собой текст на естественном языке, для превращения его в "фичи" необходимо использовать алгоритмы обработки естественного языка (Natural Language Processing, NLP). Например, можно разбивать текст на n-граммы (последовательности слов или символов длины n) или представлять его как “мешок слов” и искать не последовательности, а просто набор определенных терминов, которые вместе чаще встречаются в фейках, чем в реальных новостях. Интересный подход извлечения признаков основывается на идее связности текста в теории риторических структур: в качестве признаков используются метки фрагментов текста типа «обоснование», «уступка», «детализация», «контраст».

Существуют и более сложные алгоритмы обработки естественного языка, когда смысл текста кодируется точкой в многомерном пространстве – превращается в вектор с 300-500 параметрами. С помощью такого подхода можно сравнивать, например, насколько текст новости соотносится с заголовком или насколько одна новость похожа на другую.

Более «прозрачный» подход основан на факт-чекинге. При автоматическом факт-чекинге применяется сравнение с доверенными источниками (скажем, с Википедией — понимая при этом, что она тоже не лишена недостатков), при краудсорсинговом факт-чекинге валидацию на истинность осуществляет большое количество людей, а ПО помогает свести в одно месте результаты этих проверок и автоматизировать публикацию. Например, Марк Цукерберг не так давно писал в своей ленте, что сотрудничает с 60 организациями для проверки новостей на 50 языках. Правда, этого бывает недостаточно — на Хабре была заметка про то, что Facebook пропускает дезинформацию из-за нехватки людей.

Меры по борьбе могут быть и организационными (правиловыми). Например, на Хабре уже писали, что WhatsApp позволяет теперь пересылать популярные сообщения только одному человеку за один раз. При этом "популярным" WhatsApp считает сообщение, которое отправляется через цепочку 5 и более людей.

Автоматические инструменты в теории могут быть весьма результативными: например, Fakebox проводит классификацию на валидационных выборках с точностью выше 95% (в реальном мире на проде цифры могут быть не такими красивыми). Есть и более сложные случаи, и более сложные системы для их классификации. Они решают, насколько можно доверять отдельно тексту статьи, отдельно заголовку и отдельно автору. Точность работы таких систем существенно ниже: для текстов не превышает 65%, для заголовков – 85%, для авторов – 61% (источник). Это означает, что часть фейковых новостей не будет распознана вообще, а часть правдивых новостей будет помечена как фейки.

Аналитические инструменты для выявления фейков в последнее время широко разрабатываются. Есть разные модели с разными архитектурами: Fakebox, FakeDetector, TriFn и другие. Существуют организации, в том числе международные, которые уже давно занимаются ручным поиском и разоблачением фейков: Международная сеть проверки фактов (International Fact-Checking Network), сайт Snopes и др.

Однако надо понимать, что у таких технологий есть и побочные эффекты в виде ложноположительных результатов: иногда заблокированным оказывается и настоящий, не фейковый контент. Увы, это неотъемлемая особенность вероятностных моделей на основе неполной информации, которые не могут дать 100% точности. Чтобы повысить эффективность борьбы — больше блокировать фейки и меньше удалять настоящий контент — нужно прежде всего хорошо поработать над входными данными и затем обеспечить их корректный учет в моделях. Машинное обучение — не волшебный ящик, который сам разберется, где правда. Это мощный инструмент, который требует бережного обращения и внимательной настройки.

А есть что получше?

Есть.

Если понимать борьбу с фейками не только как работу конкретного алгоритма или конкретные действия по отношению к конкретному кусочку текста (или конкретному человеку), то серьезную роль в победе над фейками может сыграть просвещение — распространение правдивой информации: о коронавирусе, о ситуации в стране, о мерах, принимаемых компаниями и правительствами, а также о том, почему именно такие решения были приняты, а не другие.

Лучший инструмент борьбы с фейками — правда. Нужно не бояться публиковать честную статистику и освещать на всех доступных площадках честную информацию, не утаивая и не преувеличивая свои успехи.

Честность — это очень важно. Люди видят, что происходит вокруг, они не идиоты. Если говорить про то, что мы добились невероятных успехов и на каждом углу продают маски по 10 рублей, а ВВП, несмотря на остановку производственных цепочек, вырос на 10%, то люди элементарно перестанут верить государству и начнут верить фейкам. И вот так — своими фейками против других фейков — лучше не бороться. А если обильно и честно делиться информацией, составлять инструкции на человеческом языке, объяснять, как и что работает — как делает, например, тот же Алексей Водовозов, тогда и пространства для домыслов останется куда меньше.

Можно ли разговаривать с людьми правильно, чтобы они мотивированно (а не из-под палки) делали то, что хочет государство и у них не сводило скулы от кислоты канцелярита? Можно и нужно — об этом рассказывает c примерами Ильяхов на проекте «Говорит государство» и еще в начале 20 века писала гениальная Нора Галь в книге "Слово живое и мертвое".

Вообще, я уверена, что открытость корпораций и представителей власти, масштабная работа с населением не в позиции сверху вниз, а на равных, и ответы на волнующие людей вопросы понятным человеческим языком могут помочь в борьбе с недостоверной информацией больше, чем совершенствование алгоритмов или любые карательные меры.

 

Источники:
1. Проект «Говорит государство».

2. Блог у Максима Ильяхова в заметках по тегу "Пропаганда".

 


Поделиться с друзьями:

Адаптации растений и животных к жизни в горах: Большое значение для жизни организмов в горах имеют степень расчленения, крутизна и экспозиционные различия склонов...

Кормораздатчик мобильный электрифицированный: схема и процесс работы устройства...

Двойное оплодотворение у цветковых растений: Оплодотворение - это процесс слияния мужской и женской половых клеток с образованием зиготы...

Общие условия выбора системы дренажа: Система дренажа выбирается в зависимости от характера защищаемого...



© cyberpedia.su 2017-2024 - Не является автором материалов. Исключительное право сохранено за автором текста.
Если вы не хотите, чтобы данный материал был у нас на сайте, перейдите по ссылке: Нарушение авторских прав. Мы поможем в написании вашей работы!

0.011 с.