Данни канят

В началото на юли кабинетът на вицепремиера Румяна Бъчварова организира(хме) конференция за отворени данни, с името „Данни канят“. (Пиша чак сега, защото сега намерих „вдъхновение“).

Конференцията имаше live streaming, благодарение на което Боян Юруков записа видео, така че може да гледате цялата конференция:

Панелисти бяха политици, хора от НПО-сектора и бизнеса. Първата презентация беше на Антон Герунов (началник на кабинета на г-жа Бъчварова), в която той показа няколко визуализации на база на отворени данни. Там се вижда например „любопитния“ ръст на регистрациите по настоящ адрес преди местни избори.

В този момент ще се опитам да спра да звуча като press release, и само ще припомня, че порталът за отворени данни съществува от есента, след сътрудничество с тогавашния заместник министър на транспорта, доц. Камен Спасов, и Общество.бг. След това порталът се премести на сървър на правителството и се официализира благодарение на кабинета на г-жа Бъчварова.

Във видеото ще видите, че до края на годината ще бъдат отворени поне 120 масива от данни, а надявам се и повече. Но количественото изражение не е най-важното. Да, броят масиви ще излезе по медиите и след 2 дни всички ще са забравили за този „напън за прозрачност“ (както може би им изглежда на някои). Важното е, че се създава култура в администрацията и в гражданите към отваряне и анализиране на данни (колкото и това да звучи като клише).

На конференцията говорихме и за проблемите. А те не са малко. Актуалността на данните, пълнотата им, форматите, в които се публикуват, механизмите за тяхното коригиране, механизмите за изискване на още данни. Защото ако влезете на портала за отворени данни, ще видите, че някои масиви имат проблеми. Нерядко се случва даден регистър в държавата да се пази в Excel. Съответно, за да се запише като csv (машинно-четим), служителите ползват „Save as .csv“. Което и аз наивно си мислех, че работи. Само че то не работи, защото ги записва semicolon-separated и не в UTF-8. И това е един проблем, който в момента мисля как да реша трайно и в мащаб. Всъщност, това е част от работата като съветник – техническа помощ при отваряне на данните. Пиша 50-редови SQL-заявки, скриптове за конвертиране на „грешни“ .csv файлове в „правилни“ такива.

Ръчното отваряне на данни е един начин, но тази практика може лесно да бъде прекъсната от някой директор на дирекция или бъдещ министър или просто да „отмре“ с времето. Затова по новата оперативна програма има условия за допустимост на проекти, според които ако няма автоматизиран интерфейс за отворени данни, няма и пари.

Но дори с такива интерфейси пак няма всичко да е розово. Явор Алексиев от ИПИ цитира нещо много важно: „Една от огромните ми лични фрустрации като икономист в България е ужасяващият нагон на хората да се втурват към грандиозни анализи, космически всеобхватни изводи и тотално самоубедени обяснения при положение, че напълно очевидно самите им факти са неверни, неточни, непълни.“ Събирането на пълните и правилни данни и тяхното коригиране, чрез обратна връзка от потребителите, ще е предизвикателство.

В момента се броят на пръсти работещите с данни от държавата, дори медиите не го правят (с малки изключения). И съответно още по-голямото неизвестно, поне за мен, е дали хората ще ги използват и дали ще добавят стойност. Би трябвало, но може и да се окаже, че много хора дават акъл как да се ползват данните, за да се направи някое приложение (дори с бизнес-модел), но никой не прави такива. Аз например не съм направил нищо с отворените данни, а много добре знам какви масиви има. Та съм лош пример в това отношение.

Един интересен аспект засегна Стийв Кайл – според него отворените данни главно са средство за социални иновации и имат шанс да намалят неравенството. Защото, наред с всичко друго, неравенството съществува и заради неравномерния достъп до информация.

Какво ще стане от тук нататък зависи от всички – от политическото желание да се продължава отварянето на данни, от администрациите, които ги отварят, и от гражданите, бизнеса, и отново политиците и администрацията, които ги ползват. Общо взето, нещо се движи в добра посока, но има много фактори, преди то да стане наистина полезно. Ако сме очаквали отворените данни да ни решат проблемите бързо и лесно – не, това е поредното нещо, което не е панацея, и за което трябва усилие от всички. А на „това ли е най-важното“, отговорът е „и това е важно“.

А, и още нещо. „Прозрачност“ не значи някой да ни звънне по телефона и да ни каже „да знаеш, на изборите ще има много гласоподаватели, които са си сменили настоящия адрес, само за да изберат даден кмет в малко населено място“. Прозрачността е данните да ги има, а ние да се разровим в тях и да открием нередностите, след което да ги сигнализираме. Иначе държавата може да публикува всичката си информация, по достъпен начин, в реално време, а ние да си седим на дивана и да цъкаме с език „ех, всичко на тъмно правят“. А ако данните ги няма и държавата наистина „крие“ нещо, то ние трябва ги поискаме (защото държавата не е хомогенна – една дирекция може и да си крие данните, но в този момент министърът да не иска да крие тези данни). Така че – данните ни канят да сме любопитни и изискващи.

7 коментара

  1. nit: Линкът за „няколко визуализации“ е малко счупен 🙂

  2. Какъв е точно проблема с екселите ?
    Можеш да convertne-ш ascii в unicode и със прост batch script (подозирам че се ползват най вече уиндоуски машини).
    Самият ексел си има com object-и които можеш да ползваш през jscript/vbscript/c#/.net (https://msdn.microsoft.com/EN-US/library/office/dn254091.aspx) и можеш да ги запазваш в какъвто решиш формат (включително може да отваря csv,tsv и да ги конвертира в каквото решиш).Това с интерфейсите не го разбрах де (UI ли искат , WEB ли искат..)

  3. за интерфейса – уеб-услуги в общия случай

    за csv – да, направих batch script, но простото excel -> save as .csv не вади истинско csv (без да трябва да променяш настройки на няколко места, което зависи от ОС/версия на ексел)

  4. Все пак има накъде да си улесниш живота:
    1.Може да създадеш макрос
    2.Външен скрипт който да ти запазва ексела в желания формат.
    Предполагам за потребителите ще е по-лесно да ползват макрос но ще трябва да се пише на basic който не понасям 🙂
    и ще трябвa да се показва на потребителите как да си го добавят.
    Ако се ползва външен скрипт може да ползваш малко по-голямо разнообразие от езици (и ако ти е по-удобно всичко да може да се изпълни през command line)

    Ето saveAs-a -> https://msdn.microsoft.com/en-us/library/office/ff841185.aspx
    Форматите ->https://msdn.microsoft.com/en-us/library/office/ff198017.aspx

    За локализацията и делимитерите не помня къде трябва да се пипне ,но може да се намери….

    Не съм сигурен APACHE POI какви опции предлага , ама предполагам ще е по-дървено.

  5. Направих php скрипт, така че да прекарват файла през него. Не е идеално, но macros-ът също има минуси (освен, че е basic 🙂 )

Вашият коментар

Вашият имейл адрес няма да бъде публикуван. Задължителните полета са отбелязани с *