Кратък анализ на предизборните бухалки

Преди изборите през март, медиите в гравитационното поле на Пеевски издадоха две пропагандни „книги“. „Крадци на демокрация“ и „Маските на задкулисието“. Книгите се раздаваха безплатно с всеки вестник Телеграф и бяха по 250-280 страници. Това беше една сериозна инвестиция, предизборно насочена срещу политически субекти и хора. Колко точно гласове изгуби Да, България и Нова Република заради тези книги не е ясно, но със сигурност загубиха. Дали инвестицията си е струвала, да кажат „пострадалите“ от КТБ неявни собственици на медии. Със сигурност не можем да се оправдаваме с „книгите“ за невлизането в парламента, та предлагам да не се търси опит за оправдания в тази публикация. Макар резултатите да са видими и с просто око, реших да направя кратък анализ на текста на книгите. Те са достъпни на сайта на Монитор (няма да давам линк), като онлайн книги, съставени от картинки. Разбира се, не беше трудно да сваля всички картинки, да приложа OCR (превръщане на картинка в текст) върху тях и да получа сравнително коректен текст (няма да го качвам, че да не излезе, че нарушавам нечие авторско право – макар че книгите бяха без автор; никой не е искал да се подпише под тази помия). Това, което направих, е да извадя най-често срещаните н-грами – т.е. съчетания от 1, 2, 3, 4, … n последователни думи (в този случай се ограничих до 4). Изключват се служебни думи („като“, „който“, „се“ и т.н.). Целта е както да се види кой е бил атакуван най-много, така и какви са клишетата, които анонимните автори се опитват да втълпят на аудиторията си. Резултатите включват думи и изрази, съставени от до 4 думи и съответния брой срещания в книгата. Кода можете да разгледате тук. Ето и резултатите – за книга 1 и за книга 2. А ето и моята интерпретация на данните: в първата книга фокусът

Share Button