Перспективы формирования Семантической Сети

Существует два возможных способа формирования Семантической Сети: снизу вверх и сверху вниз. При первом способе мы начинаем с самого низа, то есть мы добавляем семантическую разметку в документы опубликованные в Сети. Таким образом, пользовательские агенты получают доступ к метаданным. Этот процесс понемногу начинает набирать темп. Все чаще и чаще можно встретить данные в формате RDF, встроенные в те или иные странички. Каковы перспективы этого подхода?

Во-первых, нужно отметить, что существует огромная разница в психологии людей, занимающихся созданием контента. Большинство людей крайне скептически воспринимают перспективу не просто излагать свои мысли виде обычного текста, но еще и предпринимать особые шаги для того, чтобы объяснить свои идеи бездушному (или безмозглому) компьютеру. Тем не менее, многие склонны видеть эту ситуацию в ином свете. Они готовы часами приводить в порядок свои данные, расставлять метки и писать комментарии, составлять каталоги и рейтинги. Все ради того, чтобы обеспечить удобный, хорошо структурированный доступ к информации.

Во-вторых, все больше и больше в Интернете публикуется автоматически генерируемой информации. Всевозможные базы данных, отчеты, прогнозы погоды, списки и т.д. и т.п. Конечно, добавление семантической информации в автоматически генерируемые документы требует значительно меньших усилий.

В-третьих, сейчас активно развиваются инструменты для семантической разметки документов. Нужно понимать, что семантическая информация, которую вы добавляете в свой документ, способна немедленно оказать вам помощь. Возьмем простой случай, вы пишете письмо другу Пете с предложением пойти выпить пива. Если вы даете понять своему компьютеру о чем идет речь, то вы можете тут же получить контекстную информацию необходимую вам. Например: когда у Петра сегодня заканчивается работа, список пивных баров наиболее подходящих для вас (куда удобно добраться и вам и ему, с учетом пробок на улицах города), какое пиво предпочитает ваш друг, какие важные события в его жизни должны произойти в ближайшее будущее, и так далее. Причем, у компьютера появляются уникальные возможности для того, чтобы подстраиваться именно под ваши интересы, предпочтения и стиль работы, а возможность кооперации с другими компьютерами в Сети позволит ему выполнять эту работу весьма качественно. Таким образом, пользователь будет стимулироваться к тому, чтобы наполнять семантической информацией все что он делает. Более того, вполне можно представить себе ситуацию, когда пользователь предпочтет указывать информацию только в виде понятном машине, предоставляя компьютеру всю остальную работу связанную с формулированием и оформлением данных для потенциального читателя. Сколько разного рода формальных бумаг нам приходится создавать: справки, счета, отчеты, заявления. Значительную часть этой рутины компьютер может взять на себя.

В-четвертых, большое количество метаданных создается неявным образом. Сервисы социальных закладок, такие как del.icio.us, с одной стороны стали весьма популярны в современной Сети, а с другой стороны они активно собирают метаданные в виде тегов, описаний и оценок сайтов. Если определить семантические отношения между отдельными тегами, создав, тем самым, некую онтологию, то мы получим огромное количество вполне релевантных семантических данных. В том же направлении могут двигаться и системы коллаборативной фильтрации, такие как, MovieLens и Last.fm. Они уже давно зарекомендовали себя как весьма и весьма эффективные инструменты. Еще дальше пошли авторы проекта DBin Они предлагают новую парадигму работы в Сети: «Сообщества Семантического Веба». Используя систему DBin пользователи могут обмениваться релевантной информацией так же, как пользователи пиринговых сетей обмениваются файлами.

Другой подход предполагает использование средств анализа текстов на естественных языках (Natural Language Processing — NLP). Такие инструменты должны прочитать и обработать существующие в Сети документы, чтобы извлечь из них семантические данные. К сожалению средства NLP еще далеки от совершенства. Сегодня, они не способны, в автоматическом режиме, семантически размечать документы. Однако, не надо недооценивать возможностей таких инструментов. Например: современные системы извлечения фактов позволяют найти в тексте (для английского языка) до 96% именованных объектов, то есть имен людей, названий компаний, адресов, телефонов, названий технологий, брендов и т.д. Программы синтаксического разбора русского языка позволяют правильно определить подлежащее и сказуемое примерно в 60% предложений. Уже этого достаточно, для того, чтобы извлечь из текста огромное количество семантически значимой информации. При этом, следует отметить, что технологии Семантического Веба начинают, в свою очередь, оказывать влияние на развитие инструментов NLP. Например: уже сейчас создана и внедряется в Совете Федерации Федерального Собрания Российской Федерации первая очередь информационной системы «Семантический контроль текстов редактируемых документов», которая активно использует технологии Семантического Веба. С идеей использования информации об окружающем мире (что, по сути, предполагает применение хранилищ знаний аналогичных RDF репозиториям) связаны огромные надежды в области систем распознавания текстов, синтеза и распознавания речи. Очевидно, что прогресс в сфере Семантического Веба будет способствовать и развитию систем распознавания образов.

Сегодня можно утверждать, что оба подхода к созданию среды, наполненной семантической информацией, будут развиваться параллельно, дополняя друг друга.