Навигация:

Главная Случайная страница Обратная связь ТОП Интересно знать Избранные Новые материалы

Топ:

Определение места расположения распределительного центра: Фирма реализует продукцию на рынках сбыта и имеет постоянных поставщиков в разных регионах. Увеличение объема продаж...

Оценка эффективности инструментов коммуникационной политики: Внешние коммуникации - обмен информацией между организацией и её внешней средой...

Особенности труда и отдыха в условиях низких температур: К работам при низких температурах на открытом воздухе и в не отапливаемых помещениях допускаются лица не моложе 18 лет, прошедшие...

Интересное:

Лечение прогрессирующих форм рака: Одним из наиболее важных достижений экспериментальной химиотерапии опухолей, начатой в 60-х и реализованной в 70-х годах, является...

Инженерная защита территорий, зданий и сооружений от опасных геологических процессов: Изучение оползневых явлений, оценка устойчивости склонов и проектирование противооползневых сооружений — актуальнейшие задачи, стоящие перед отечественными...

Финансовый рынок и его значение в управлении денежными потоками на современном этапе: любому предприятию для расширения производства и увеличения прибыли нужны...

Дисциплины:

Автоматизация Антропология Археология Архитектура Аудит Биология Бухгалтерия Военная наука Генетика География Геология Демография Журналистика Зоология Иностранные языки Информатика Искусство История Кинематография Компьютеризация Кораблестроение Кулинария Культура Лексикология Лингвистика Литература Логика Маркетинг Математика Машиностроение Медицина Менеджмент Металлургия Метрология Механика Музыкология Науковедение Образование Охрана Труда Педагогика Политология Правоотношение Предпринимательство Приборостроение Программирование Производство Промышленность Психология Радиосвязь Религия Риторика Социология Спорт Стандартизация Статистика Строительство Теология Технологии Торговля Транспорт Фармакология Физика Физиология Философия Финансы Химия Хозяйство Черчение Экология Экономика Электроника Энергетика Юриспруденция

Как выявлять фейки автоматически?

2021-12-11

0.00 из 5.00 0 оценок

Заказать работу

⇐ ПредыдущаяСтр 2 из 2

Задачу распознавания фейков решают классификаторы, обученные с помощью алгоритмов машинного или глубокого обучения. В общем случае они получают на вход текст статьи со всеми метаданными (заголовок, автор, рубрика, ссылки на источники, дата публикации) и выводят оценку, насколько данная статья похожа на фейк или реальную новость.

В разработке подобных моделей нет ничего необычного: необходимо собрать данные для обучения (с разметкой их истинности или ложности), определиться с набором атрибутов, выбрать алгоритм обучения, настроить параметры. Как правило, фейковые новости распространяются по сети иначе, чем правдивые, и этот факт можно использовать для обучения модели — добавить в перечень атрибутов сведения о последующей "жизни" новости: репосты, лайки, данные пользователей, которые продвигают новость и т.д.

Поскольку данные представляют собой текст на естественном языке, для превращения его в "фичи" необходимо использовать алгоритмы обработки естественного языка (Natural Language Processing, NLP). Например, можно разбивать текст на n-граммы (последовательности слов или символов длины n) или представлять его как “мешок слов” и искать не последовательности, а просто набор определенных терминов, которые вместе чаще встречаются в фейках, чем в реальных новостях. Интересный подход извлечения признаков основывается на идее связности текста в теории риторических структур: в качестве признаков используются метки фрагментов текста типа «обоснование», «уступка», «детализация», «контраст».

Существуют и более сложные алгоритмы обработки естественного языка, когда смысл текста кодируется точкой в многомерном пространстве – превращается в вектор с 300-500 параметрами. С помощью такого подхода можно сравнивать, например, насколько текст новости соотносится с заголовком или насколько одна новость похожа на другую.

Более «прозрачный» подход основан на факт-чекинге. При автоматическом факт-чекинге применяется сравнение с доверенными источниками (скажем, с Википедией — понимая при этом, что она тоже не лишена недостатков), при краудсорсинговом факт-чекинге валидацию на истинность осуществляет большое количество людей, а ПО помогает свести в одно месте результаты этих проверок и автоматизировать публикацию. Например, Марк Цукерберг не так давно писал в своей ленте, что сотрудничает с 60 организациями для проверки новостей на 50 языках. Правда, этого бывает недостаточно — на Хабре была заметка про то, что Facebook пропускает дезинформацию из-за нехватки людей.

Меры по борьбе могут быть и организационными (правиловыми). Например, на Хабре уже писали, что WhatsApp позволяет теперь пересылать популярные сообщения только одному человеку за один раз. При этом "популярным" WhatsApp считает сообщение, которое отправляется через цепочку 5 и более людей.

Автоматические инструменты в теории могут быть весьма результативными: например, Fakebox проводит классификацию на валидационных выборках с точностью выше 95% (в реальном мире на проде цифры могут быть не такими красивыми). Есть и более сложные случаи, и более сложные системы для их классификации. Они решают, насколько можно доверять отдельно тексту статьи, отдельно заголовку и отдельно автору. Точность работы таких систем существенно ниже: для текстов не превышает 65%, для заголовков – 85%, для авторов – 61% (источник). Это означает, что часть фейковых новостей не будет распознана вообще, а часть правдивых новостей будет помечена как фейки.

Аналитические инструменты для выявления фейков в последнее время широко разрабатываются. Есть разные модели с разными архитектурами: Fakebox, FakeDetector, TriFn и другие. Существуют организации, в том числе международные, которые уже давно занимаются ручным поиском и разоблачением фейков: Международная сеть проверки фактов (International Fact-Checking Network), сайт Snopes и др.

Однако надо понимать, что у таких технологий есть и побочные эффекты в виде ложноположительных результатов: иногда заблокированным оказывается и настоящий, не фейковый контент. Увы, это неотъемлемая особенность вероятностных моделей на основе неполной информации, которые не могут дать 100% точности. Чтобы повысить эффективность борьбы — больше блокировать фейки и меньше удалять настоящий контент — нужно прежде всего хорошо поработать над входными данными и затем обеспечить их корректный учет в моделях. Машинное обучение — не волшебный ящик, который сам разберется, где правда. Это мощный инструмент, который требует бережного обращения и внимательной настройки.

А есть что получше?

Есть.

Если понимать борьбу с фейками не только как работу конкретного алгоритма или конкретные действия по отношению к конкретному кусочку текста (или конкретному человеку), то серьезную роль в победе над фейками может сыграть просвещение — распространение правдивой информации: о коронавирусе, о ситуации в стране, о мерах, принимаемых компаниями и правительствами, а также о том, почему именно такие решения были приняты, а не другие.

Лучший инструмент борьбы с фейками — правда. Нужно не бояться публиковать честную статистику и освещать на всех доступных площадках честную информацию, не утаивая и не преувеличивая свои успехи.

Честность — это очень важно. Люди видят, что происходит вокруг, они не идиоты. Если говорить про то, что мы добились невероятных успехов и на каждом углу продают маски по 10 рублей, а ВВП, несмотря на остановку производственных цепочек, вырос на 10%, то люди элементарно перестанут верить государству и начнут верить фейкам. И вот так — своими фейками против других фейков — лучше не бороться. А если обильно и честно делиться информацией, составлять инструкции на человеческом языке, объяснять, как и что работает — как делает, например, тот же Алексей Водовозов, тогда и пространства для домыслов останется куда меньше.

Можно ли разговаривать с людьми правильно, чтобы они мотивированно (а не из-под палки) делали то, что хочет государство и у них не сводило скулы от кислоты канцелярита? Можно и нужно — об этом рассказывает c примерами Ильяхов на проекте «Говорит государство» и еще в начале 20 века писала гениальная Нора Галь в книге "Слово живое и мертвое".

Вообще, я уверена, что открытость корпораций и представителей власти, масштабная работа с населением не в позиции сверху вниз, а на равных, и ответы на волнующие людей вопросы понятным человеческим языком могут помочь в борьбе с недостоверной информацией больше, чем совершенствование алгоритмов или любые карательные меры.

Источники:
1. Проект «Говорит государство».

2. Блог у Максима Ильяхова в заметках по тегу "Пропаганда".

⇐ Предыдущая 12

Поделиться с друзьями:

Адаптации растений и животных к жизни в горах: Большое значение для жизни организмов в горах имеют степень расчленения, крутизна и экспозиционные различия склонов...

Кормораздатчик мобильный электрифицированный: схема и процесс работы устройства...

Двойное оплодотворение у цветковых растений: Оплодотворение - это процесс слияния мужской и женской половых клеток с образованием зиготы...

Общие условия выбора системы дренажа: Система дренажа выбирается в зависимости от характера защищаемого...