Забавно сегментиране на имена и изрази

Снощи в twtiter беше популярен хештагът #tashhag. Той тръгна от няколко забавни имена като Рамбо Силек и Кокоша Нел. 1-ви се активизираха @muiiio, @batemisho, @Saaabina и др. (сигурно пропускам някого). Разбира се десетки хора се включиха в генерирането на такива погрешно сегментирани имена и изрази. Ето някои от тях:

 

Рамбо Силек
Кокоша Нел
Донки Хот
Трандафил Канемска
Бой Коборисов
Махат Маганди
Инди Раганди
Ханко Брат
Моа Марка Дафи
Барако Бама
Орлинго Ранов
Юкселка Дриев
Нелито Палова
Валентин Ахасан
Николасар Кози
Донка Мизи
Пино Чет
Цон Коцонев
Банки Муун
Цветан Каризова
Енрике и Глесиас
Харалам Пипопов
Харалам Пияничкин
Томихил Фигер
Йоанко Козел
Майка те реза
Томас ProСтранов
Дует Тритон
Моцар Тибетовен
Илфи Петров
Джипче Роки
Има ламайка едно мичедо
Стока Багайди
Уши носи гърло
Досиета тахикс
То Миджери
Томи Джери
Мога Дишу
Таджма хал
Барна здраве
Галата са рай
Сан Докан
Сандо Кан
Ростов Надон
Ако Saatchi раздират душата ми млада
Конска паци
Отличен опит
Висок и син, и планини

 

Всички туитове, както и авторите на горните могат да се видят на https://twitter.com/search?q=%23tashhag . (Ако някой автор държи да бъде споменат, да пише – подчертавам, че само някои от горните неща са мои включвания) Една забележка обаче – много от туитовете там не са примери за погрешно сегментиране, каквито бяха ‘основоположниците на тага’. Другите не съм ги включил горе, макар че и те бяха забавни. Т.е. хештагът в един момент обедини грешки при сегментирането с всякакви други видове грешки, водещи до забавни резултати.

Интересното на тези в списъка по-горе е че много от тях са реални интерпретации – най-вече на деца или на чужденци. Името/изразът се чува, но поради липса на езиков опит, се сегментира грешно. Сигурен съм, че много деца са мислили, че хората се казват Нелито Палова и Харалам Пияничкин. Класическият пример с Трендафилка Немска дори си има фейсбук група.

Темата е интересна от лингвистична гледна точка, и особено от гледна точка на компютърната лингвистика и разпознаването на говор, но да не задълбаваме в научната част. (Ако на някого му е интересно – кратко въведение в темата. И google за „word boundaries speech perception“, „word segmentation“, „word parsing“)

 

6 comments

  1. Режисьорна дублажа / режисьорна до плажа
    Йордан Каварджийска 😉

Вашият коментар

Вашият имейл адрес няма да бъде публикуван. Задължителните полета са отбелязани с *