Лгут ли люди, и какое это имеет отношение к Semantic Web - ProfessorArt

С момента публикации К. Доктороу своей статьи » Метачушь: проливаем свет на семь логических несуразиц по поводу мета-утопии»прошло уже несколько лет, тем не менее, и сегодня можно услышать те же самые, мягко говоря, не слишком свежие доводы против Semantic Web. К сожалению вокруг этой темы действительно ходит множество несуразных слухов, и превратных трактовок. Давайте попробуем разобраться: что же действительно имеет отношение к Semantic Web, а что является следствием недопонимания или предвзятого отношения к этой теме.

Наверно главной проблемой Semantic Web является — его название. Тим Бернерс-Ли (автор этой идеи) не раз попадал в просак из-за ошибочного выбора названия. Позже он сам признал, что это название не удачно и предложил более корректный термин: Сеть Данных (Data Web). Однако, поезд уже ушел, и сегодня словосочетание Semantic Web стало широко распространено. Беда в том, что упоминание семантики вызывает у многих людей жесткие ассоциации с идеями Искусственного Интеллекта. А рукотворный разум сегодня воспринимается как образец неудачного проекта. Как следствие, все, что ассоциируется с Искусственным Интеллектом, приводит специалистов в состояние уныния и пробуждает ощущение беспросветного топтания на месте. И сколько, после этого, ни говори, что Semantic Web не имеет отношения к Искусственному Разуму, оппоненты тебя уже не слышат. Собственно на этом и зиждется большая часть недоразумений связанных с Семантической Паутиной.

Рассмотрим аргументы критиков. Кори Доктороу пишет что:

1. Люди лгут, следовательно, мы не можем полагаться на те данные, которые они вводят.

Действительно многим, я так даже уверен, что всем, людям присущ этот порок. Но! почему нас не слишком беспокоит этот вопрос, когда речь идет о заполнении какой-нибудь формы в Интернете, или при посылке электронного письма, или когда люди редактируют Википедию, публикуют статью в блоге, даже голосуют на выборах? А вот как только речь заходит о Semantic Web, так способность человека говорить ложь объявляется — непреодолимым препятствием. На самом деле все объясняется довольно просто. Говоря о Semantic Web, мы неосознанно начинаем воспринимать компьютер, наделенный способностью анализировать семантику, как некий объект, который может думать. А раз он думает, значит, мы его непременно обманем. В этом есть, даже некоторый элемент азарта. Но позвольте повторить: Semantic Web — это не Искусственный Интеллект. Так что обмануть его, это все равно как обмануть ящик, в который вы опускаете избирательный бюллетень. Весь мир вокруг нас наполнен ложными данными, но ведь это не значит, что электронная почта — бесполезный инструмент.

2. Люди ленивы и глупы, и это так же не способствует появлению достоверных данных.

Все вышесказанное можно повторить и здесь. Да, вокруг нас много глупости и лени, но это не зависит от того, в каком виде мы храним информацию. Более того, если какой-то дурак ввел неверные данные в реляционную базу данных, то это может привести к катастрофическим последствиям, но те же данные в формате RDF, могут, в некоторых случаях, быть проверены автоматически и значительно более тщательно. Таким образом, мы ничего не теряем оттого, что переводим информацию из одного формата в другой. В любом случае проблема «защиты от дурака» ложится на программное обеспечение. Только мы должны понимать, что это программное обеспечение — не Искусственный Интеллект, и не станет Искусственным Интеллектом оттого, что мы решили хранить данные в формате RDF.

3. Схемы не являются нейтральными, следовательно, невозможно создать единый механизм описания мира.

Еще одно, довольно древнее заблуждение — представление о том, что вся Semantic Web, так или иначе, должна строиться на одной гигантской согласованной онтологии. Это — не верно. Semantic Web может вообще не использовать никаких онтологий (схем, иерархий, таксономий, и т.д.). Любая схема — это функция конкретного приложения, которое работает с конкретным подмножеством четко определенных данных. А наличие в доступе данных, не укладывающихся в вашу схему, предоставляет возможности для развития вашего приложения, если вы заинтересованы в таком его развитии.

Если же предположить, что существуют две конкурирующие онтологии, то это ни коем образом не сможет разрушить данные, опубликованные в Сети. Просто разные приложения будут использовать разные, пусть и конкурирующие, схемы. Это только увеличит разнообразие, и позволит пользователям посмотреть на одну и ту же проблему с разных точек зрения.

4. Измерения влияют на результат, поэтому мы не можем гарантировать объективности.

Опять же никто не заставляет вас пользоваться одной и только одной онтологией. Поэтому Semantic Web никак не может изменить ситуацию к худшему. Наоборот, наличие разных онтологий, позволит пользователям оценивать те или иные продукты с разных сторон. Например: онтология от Intel может предполагать использование мегагерцев для оценки производительности процессоров, так как такой способ оценки дает преимущество процессорам этой фирмы. Отлично, в Semantic Web никто не может помешать компании Motorola расширить эту онтологию и добавить в нее другие способы оценки производительности процессоров. Если этот подход не удовлетворителен, то компания Motorola может создать еще одну онтологию, описывающую параметры процессоров. При этом потребитель, заинтересованный в рациональном выборе поставщика процессоров, сможет увидеть данные, удовлетворяющие обеим онтологиям, а также провести сравнение процессоров, используя разные критерии, т.к. данные о процессорах будут ему доступны вне зависимости от того, какой конкретно онтологии они соответствуют.

5 . Все можно описывать разными способами, следовательно, данные из разных источников будут не совместимы друг с другом по своей структуре.

Действительно проблема объединения данных из разных источников — это очень не тривиальная задача и те подходы к ее решению, которые предлагает Semantic Web, не всегда приводят к удовлетворительному результату. Однако, когда мы рассматриваем эту проблему в контексте Semantic Web, следует отметить следующее:

во-первых, вряд ли мы сегодня найдем технологию, которая справляется с этой задачей лучше, чем Semantic Web (если вам знакомы подобные технологии я был бы рад о них услышать);

во-вторых, Semantic Web стимулирует поставщиков и потребителей информации договариваться о способах описания тех или иных сущностей. При этом Semantic Web накладывает на участников этого процесса минимальные ограничения.

Способы описания определяются требованиями потребителя информации, поэтому если вас интересуют экологические аспекты информации, то вы будете использовать онтологии, относящиеся к экологии, а если вы занимаетесь искусством, то вы будете анализировать информацию с иной точки зрения. То есть все дело в том, какие цели вы преследуете. Если вы заинтересованы в обмене информацией, то Semantic Web предоставляет вам для этого удобный механизм, поэтому вы всегда можете согласовать действия между поставщиками и потребителями данных. Если же вы не хотите, чтобы ваши данные стали доступны другим, то, зачем тогда вообще публиковать их в Сети.

Как только вы откажетесь воспринимать Semantic Web как попытку возрождения проекта Искусственного Интеллекта, вы увидите, что Semantic Web – это просто удобное средство для поиска информации, интеграции данных из разных источников и работы с плохо структурированными данными. В этом качестве, пусть и лишенная, каких-то мистических свойств, Semantic Web имеет хорошие перспективы для развития.