Семантический Веб, Силлогизм и представления о мире

Клей Ширки CLOAKING

Оригинал: http://www.shirky.com/writings/semantic_syllogism.html

Впервые опубликовано 7 Ноября 2003 в списке рассылки «Networks, Economics, and Culture».

Перевод известной статьи Клея Ширки, в которой автор критикует идею Семантического Веба. С точки зрения Клея Семантический Веб — это машина для создания силлогизмов, а силлогизмы не так уж и полезны в реальном мире. Силлогизмы позволяют описывать лишь определенное представление о мире, поэтому, они плохо подходят для работы с неполными, ненадежными и контекстно-зависимыми данными.

Содержание

Введение

Проект консорциума W3C «Семантический Веб» по разному описывали в течении последних нескольких лет: как расширение современной паутины, в котором информация получит хорошо определенное значение, как место, где машины смогут анализировать любые данные из Интернета и, даже, как среда, в которой машины научатся рассуждать повсеместно и невероятно эффективно. Главная проблема всех этих описаний заключается в том, что, ни одно из них не дает ответ на очевидный вопрос: Для чего годится Семантический Веб?

Простой ответ заключается в следующем: Семантический Веб — это машина для создания силлогизмов. Силлогизм — это вид логических рассуждений, впервые описанный Аристотелем, при котором «… если определенные вещи установлены, то некоторые другие неизбежно следуют из справедливости первых». [ Органон]

Вот пример канонического силлогизма:

Люди — смертны Греки это люди

Поэтому греки — смертны

где третье утверждение выводится из первых двух.

Семантический Веб состоит из утверждений, например таких как: «Создатель shirky.com — Клей Ширки». Возьмем два высказывания:

— Клей Ширки — создатель shirky.com
— создатель shirky.com живет в Бруклине

вы можете заключить, что я живу в Бруклине, нечто, чего вы не могли бы узнать из самих исходных утверждений. Далее, другие утверждения, включающие в себя Клея Ширки, shirky.com или Бруклин, могут быть связаны друг с другом.

Семантический Веб специфицирует способы представления подобного рода высказываний в Интернете, так что, третьи лица смогут объединять их для вывода новых утверждений, которые являются истиной хотя и не формулируются непосредственно. Что же обещает Семантический Веб? Он улучшит все сферы вашей жизни, где используются силлогизмы.

То есть почти никакие.

Силлогизмы — не очень то полезны

Хотя силлогизмы окружают нас со времен Аристотеля, они достигли своего апофеоза в 19-ом столетии в работах Чарльза Доджсона (более известного как Льюис Кэрролл). Доджсон написал две книги о силлогизмах и методах их представления в графической форме, и его силлогизмы часто принимали форму сорита, при котором вывод из одной пары связанных утверждений становился новым утверждением, пригодным для связи с другими высказываниями.

Один из соритов Доджсона говорит:

— Лекарства против кровотечения, которые не могут его остановить — это издевательство — Тинктура Календулы — заслуживает доверия — Лекарства, которые останавливают кровотечение, когда вы порезали палец — полезны

— Все фиктивные лекарства против кровотечения — не заслуживают доверия

что приводит вас к заключению, что Тинктура Календулы останавливает кровотечение, когда вы порезали палец.

Несмотря на их привлекательную простоту, силлогизмы не слишком хорошо работают в реальном мире, потому что большинство данных, которыми мы пользуемся не поддаются таким простым способам обработки. Как результат, Семантический Веб, в любом случае, не сможет быть достаточно полезным.

Ребята, работающие над Семантическим Вебом существенно переоценивают значение дедуктивного способа вывода знаний (это часто встречающаяся проблема в проектах Искусственного Интеллекта). Величайшим популяризатором этой ошибки был Артур Конан Дойл, чьи истории о Шерлоке Холмсе нанесли больший урон нашему пониманию человеческого разума нежели что-либо еще. Дойл убедил поколения читателей, в том, что, в момент размышления действительно умные люди, приходят к неизбежным заключениям посредством связывания последовательных фактов. Как Холмс лихо утверждал это: — «когда вы устраните невозможное, то, то что останется, и будет истиной, как бы неправдоподобно это не выглядело».

Это чувство так притягательно именно потому, что оно описывает мир гораздо более простой, нежели наш с вами. В реальном мире мы обычно оперируем неполной, неубедительной или чувствительной к контексту информацией. Когда нам приходится принимать решение основываясь на этой информации, мы пытаемся строить догадки, экстраполировать, обращаемся к интуиции, поступаем так, как мы поступали раньше в аналогичной ситуации, делаем то, что, как нам кажется, сделали бы наши друзья, или Иисус, или Джоан Джетт Мы делаем все эти вещи, и многое другое, но мы, почти никогда, не обращаемся к дедуктивной логике.

И как следствие, почти ни одно утверждение, из тех, что мы делаем, даже самые очевидные, не является истиной в том смысле, как этого требует Семантический Веб. Дрю МакДермотт в его блестящей «Критике чистого разума» (Critique of Pure Reason [Computational Intelligence, 3:151-237, 1987]) взял под сомнение, что вы сможете создать искусственный интеллект построив достаточно детализированную дедуктивную машину. Он заключил, что этот подход фатально недоработан, и заметил, что: — «Это, должно быть случай, когда нам просто хочется, чтобы значительная часть логического вывода была дедукцией, в противном случае это просто не будет соответствовать количеству теорем, дедуктивно выведенных из заданного набора аксиом». Хотя «Критика чистого разума» предворяла не только Семантический, но и обычный Веб, критика все еще актуальна.

Рассмотрим следующие высказывания:

— Создатель shirky.com живет в Бруклине
— Люди, живущие в Бруклине, говорят с Бруклинским акцентом

Вы можете заключить из этой пары утверждений, что создатель shirky.com произносит это название как «шоики дот ком». Это, в отличии от утверждения о моем физическом местоположении, не правда. Это было бы просто истолковать как ситуацию «мусор на входе — мусор на выходе», но все совсем не так просто. Создатель shirky.com действительно живет в Бруклине, и некоторые люди, живущие в Бруклине, действительно говорят с Бруклинским акцентом, просто не все.

Другими словами, каждое из этих высказываний — правда, но правда в разном смысле. Хочется отметить, что второе утверждение — это обобщение, которое может быть понято, только в контексте, но в данном случае приводит к безумной неправде. Любое требование, чтобы каждое данное утверждение сверялось с библиотекой контекстных утверждений, которые, в свою очередь, тоже должны пройти аналогичную проверку, обрекает систему на гибель.

Мы описываем мир в обобщениях

Мы не можем отвергнуть обобщения потому, что мы не можем сказать является ли то, или иное, высказывание обобщением, просто взглянув на него. Даже если мы можем, это не поможет, потому что обобщения — это универсальный инструмент. «Люди, живущие во Франции, говорят по французски» структурно не отличается от «Люди, живущие в Бруклине, говорят с Бруклинским акцентом». В любом обычном контексте «Люди, живущие во Франции, говорят по французски» — правда, но это ложь если нам требуется универсальность, так как существуют французские иммигранты и экспатрианты, которые не говорят на этом языке.

Силлогизмы выглядят неуклюже, потому что они имеют дело с абсурдным абсолютом. Рассмотрим такую жемчужину от Доджсона:

— Ни одно интересное стихотворение не является непопулярным среди людей с хорошим вкусом — Нет современной поэзии свободной от неестесственности — Все ваши стихи о мыльных пузырях — Нет неестесственной поэзии популярной среди людей с хорошим вкусом

— Нет древней поэзии о мыльных пузырях

Из этого, конечно, можно сделать заключение, что все ваши стихи — плохие.

Этот 5-строчный силлогизм — самая серьезная, из когда-либо публиковавшихся, критика Семантического Веба, так как он иллюстрирует мир в котором нам приходится жить, для того чтобы такая форма рассуждений заработала, нужен мир, где язык — это просто набор математических операций над словами. Действительное человеческое высказывание должно учитывать неоднозначности реального мира, где люди, даже те, у которых хороший вкус, не согласны друг с другом, о том, что интересно, а что нет, что естественно, а что искусственно, и где, не существуют поэты (даже самые бездарные), которые все свои стихи посвящают мыльным пузырям.

Предполагаемые сферы использования Семантического Веба

Силлогизмы Доджсона в действительности демонстрируют ограниченность формы, образец, который можно назвать «доказательство отсутствия обоснования», где абсурдность иллюстративного примера сводит на нет суть идеи. Это в полной мере относится и к Семантическому Вебу. Рассмотрим следующий пример (взято с сайта W3C):

В: Как вы покупаете книги с помощью Семантического Веба?
О: Вы просматриваете Сеть до тех пор, пока не находите подходящего предложения о продаже книги, которую вы ищите. Вы добавляете информацию в Семантический Веб говоря, что вы принимаете предложение и предоставляете детали (ваше имя, адрес доставки, информацию о вашей кредитной карточке и т.д.). Конечно, вы вводите эту информацию (1) при обеспечении должного уровня управления доступом, так что только вы, и продавец могут видеть эти данные, и (2) вы сохраняете эту информацию в месте, где продавец может легко ее получить, возможно на личном сервере продавца, (3) вы уведомляете продавца об этом. Далее вы ждете или запрашиваете подтверждение, что продавец получил ваш акцепт, и, возможно (позже), что товар отправлен, и т.д. и т.п. http://www.w3.org/2002/03/semweb/

Кто-то еще сомневается, что Джефф Безос потерял сон.

Этот пример демонстрирует общий шаблон для описания Семантического Веба. Сначала возьмем хорошо известную проблему. Затем превратно ее истолкуем, так, что сложная ее часть будет выглядеть тривиальной, а тривиальная — невероятно сложной. И, наконец, поздравим себя с решением тривиальной части.

Вся реальная сложность процесса поиска читателями необходимых им книг улетучилась в первом предложении: «Вы просматриваете Сеть до тех пор пока не находите подходящего предложения о продаже книги, которую вы ищите». Кто сказал, что это так просто? В то время как тривиальная операция оплаты книги получает щедрое описание, предназначенное для того, чтобы скрыть тот факт, что, как только вы нашли подходящую книгу, использование кредитной карточки — совершенно очевидный следующий шаг.

Рассмотрим другое описание Семантического Веба, которое, аналогично превратно истолковывает проблему:

Объединение баз данных просто сводится к записи где-нибудь в RDF что «Person Name» в вашей базе эквивалентно «Name» в моей, и тогда объединение всей информации вместе можно возложить на процессор. http://infomesh.net/2001/swintro/

Если вы когда-либо имели дело с объединением баз данных, то вы никогда не станете использовать слово «просто» для описания этого процесса. Если создание тезауруса названий полей было бы достаточно для решения этой проблемы, то не было бы никакой необходимости в Семантическом Вебе; этот процесс бы уже давно работал. Наоборот, используя Льюис Кэрролл-изм, производятся мистические взмахи руками, в результате реальная проблема (людские имена не являются глобально уникальными) маскируется за тривиальностью установки связи между «Name» и «Person Name». Ваше «Person Name» = «Джон Смит» эквивалентно моему «Name» = «Джон К. Смит»? Кто знает? Точно не Семантический Веб. Процессор может «думать» об этом пока весь кремний не испарится и не придет к какому-нибудь определенному ответу.

Время от времени энтузиасты Семантического Веба пытаются придать ему человеческие черты: например мы можем захотеть доказать, что Джо любит Мэри. Мы приходим к этому заключению в следствии того, что мы находим на сайте, заслуживающем доверия, два документа, один из которых говорит что «:Джо :любит :МДС», а второй утверждает что «:МДС :эквивалентно :Мэри». Мы также получаем контрольную сумму файлов персонально от автора сайта.

Чтобы проверить эту информацию, мы можем занести контрольные суммы в файл, и затем установить несколько FOPL правил: «если файл ‘a’ содержит информацию о том, что Джо любит МДС и имеет контрольную сумму md5:0qrhf8q3hfh, то записать УспешноА», «если ‘b’ содержит информацию о том, что МДС эквивалентно Мэри и имеет контрольную сумму md5:0892t925h, то записать УспешноБ», и «если УспешноА и УспешноБ, тогда Джо любит Мэри». http://infomesh.net/2001/swintro/

Вы возможно захотите прочитать второй абзац еще раз, чтобы вкусить эту восхитительную смесь несущественных деталей и бессодержательности.

Каждый, кто когда-либо был пятнадцатилетним знает, что декларация любви, неважно имеет она контрольную сумму или нет, не может быть однозначно принята за чистую монету. И даже если мы захотим убрать любовь из этого примера, то чем мы сможем ее заменить? Мир утверждений, что Джо может делать с Мэри огромен, но количество таких утверждений, которые могут быть универсально интерпретированы стремится к нулю.

Еще одно, последнее замечание из категории «доказательств отсутствия обоснования»:

Вот пример: Скажем одна компания решает, что если кто-то продает более чем 100 единиц их продукции, то он причисляется к клубу Супер Продавцов. Умная программа теперь может следуя этому правилу сделать простой вывод: «Джон продал 102 единицы продукции, поэтому Джон является членом клуба Супер Продавцов». http://logicerror.com/semanticWeb-long

Это возможно высшее проявление описываемого принципа. Представление тривиальной проблемы как заслуживающей вмешательства ее величества Семантики: программа, которая может сделать заключение, что 102 больше чем 100 идентифицируется как умная. Искусственный Интеллект, вот куда мы пришли.

Метаданные — не панацея

Семантический Веб опирается на метаданные, а многие метаданные, по разным причинам, — не заслуживают доверия. И причины эти, не так просто устранить (см. например: Доктороу, Пилгрим, Ширки) Хотя, по крайней мере, некоторые из этих проблем и связаны с тем, что люди пытаются нарочно обмануть систему, но значительно более важно то, что, даже когда пользователи публикуют метаданные, которые сами считают корректными, мы все равно сталкиваемся с проблемой.

Рассмотрим следующие утверждения:

— Граф Дракула — вампир — Граф Дракула живет в Трансильвании — Трансильвания — район Румынии — Вампиры — сказочные существа

Вы можете прийти только к одному непротиворечивому заключению из этого набора утверждений: Румыния — сказочная страна. Это, конечно не верно, но ошибочность этого высказывания никак не отражена в исходных данных. Просто не существует очевидного способа отделить реальные факты от вымысла и эта проблема, удивительным образом, имеет гораздо большее значение, чем проблема идентификации вампиров. Рассмотрим следующие высказывания:

— Граждане США — люди — Первая Поправка к конституции США защищает права граждан США — Права Найк защищены Первой Поправкой к конституции США

Вы можете заключить, что Найк — это человек, и конечно вы будете правы. В контексте закона о Первой Поправке, корпорации трактуются так же, как и люди. Однако, если вы свяжете это заключение с медицинской базой данных вы придете к заключению, что почки Найка выводят вредные вещества из крови Найка в его мочу.

Онтология — не является необходимым условием

Хотя сторонники Семантического Веба храбро пытаются проиллюстрировать простые способы его использования, у них все время получаются неудачи, вроде приведенных выше. И все потому, что Семантический Веб мечется между двумя целями, одной достижимой, но ненужной, а другой дерзкой, но обреченной.

Первая цель проста: предоставить людям больше метаданных. Семантический Веб был одним из самых первых проектов, основывавшихся на идее использования XML, как универсального формата, для обмена данными. Опираясь на такую базу, кажется логичным следующим шагом — заключить формальное соглашение о природе всего, что когда-либо было описано (создать онтологию).

Вместо этого выяснилось, что люди могут обмениваться данными, без обмена представлениями о мире, так что мы получили метаданные без онтологии. Первое вещественное доказательство этого — мир блогов. В недавней статье о Семантическом Вебе и блогах Мэт Ротенберг подробно рассказал об изобретении и быстром распространении «Автораспознавания RSS», при котором, уже существующий HTML тэг был использован для автоматического указания на RSS-канал.

Об этом процессе, который прошел от предложения до реализации за считанные дни, Ротенберг говорит:

Принимая во внимание, что автораспознавание RSS было упрощенным техническим стандартом, по сравнению со стандартами, необходимыми для среды распространяющихся метаданных предусматривавшихся Семантическим Вебом, тем не менее, его признание демонстрирует среду, в которой новые технические стандарты для публикаций могут проходить путь от прототипа до широко распространенного инструмента чрезвычайно быстро.

Это, конечно, попытка утопающего схватиться за соломинку. Обычное дело для любого, чья технология оказывается слишком сложной. Люди, проталкивающие такие технологии, часто пытаются поймать нас на крючок утверждая, что быстрое принятие простой технологии является предтечей более позднего принятия значительно более сложной технологии. Лотус утверждал, что простая электронная почта в конце концов заставит людей требовать более изощренных функций CC:Mail (мир праху его), PointCast (тоже мир праху его) пытался назвать email — «push» технологией, чтобы самим выглядеть как инструмент нового поколения, а не как тупиковая ветвь развития, и так далее.

Здесь Ротенберг следует тому же сценарию для достижения цели, называя автораспознавание RSS «упрощенным» и не принимая идею, что простота может быть необходимым условием для быстрого и широкого распространения. Действительный урок, который преподнесло нам автораспознавание RSS, это то, что разработчики могут создавать ценные метаданные без какого бы то ни было Семантического Веба. Будут ли завтра все усилия отложены в сторону или нет, это ни в малейшей степени не повлияет на успех таких технологий, как автораспознавание RSS.

Возрождение Искусственного Интеллекта

Если первая цель Семантического Веба была доминирующая разметка, которая будет не более, чем компания «Получил метаданные?» — общий призыв для разработчиков делать то, что они и так делают. То вторая, и более глобальная цель, заключается в том, чтобы поместить старый проект Искусственного Интеллекта в новый контекст.

После 50 лет работы, производительность машин предназначенных для того, чтобы думать о мире, так же, как это делает человек, остается, вежливо говоря, не оптимальной. Семантический Веб намеревается изменить ситуацию зайдя с другой стороны. Так как оказалось слишком трудно создать машины думающие о мире, то новая задача — это описать мир таким образом, чтобы машинам было удобно о нем думать.

Описания Семантического Веба демонстрируют перестановку тривиальной и сложной проблем потому, что главная цель описана точно таким же способом. Семантический Веб считает само собой разумеющимся, что большинство важных аспектов мира может быть специфицировано в недвусмысленной всеми признаваемой форме, а затем тратит огромное количество времени на описание идеальных XML форматов для этой спецификации. То есть делается акцент на не правильной части проблемы. Если бы мир было просто описать вы могли бы сделать это и на санскрите.

Аналогично, высказывания в Семантическом Вебе работают как входные данные для логики силлогизмов, вовсе не потому, что силлогизмы хорошо подходят для работы с ненадежными, неполными, или контекстно-зависимыми данными (они для этого не подходят по причинам описанным ранее), а просто потому, что компьютеры легко могут их обрабатывать. Если мир не может быть сведен к непротиворечивым утверждениям, которые можно без усилий объединить вновь, тогда будет трудно возродить проект Искусственного Интеллекта. А это, конечно, будет невероятно.

Существуют серьезные причины, по которым представления о мире отличаются друг от друга

Многие сетевые проекты, в том числе и такие вещи как, B2B (business-to-business) рынки и Веб Сервисы начинались опираясь на безукоризненную гипотезу о том, что коммуникации будут проще, если все будут описывать вещи одинаковым способом. Отсюда следует этот короткий, но фатальный прыжок к заключению, что та технология, которая унифицирует описания, будет, в силу этого, повсеместно и быстро признана мировым сообществом (ошибка под названием: «это будет работать потому, что это будет хорошо, если это будет работать»).

Любая попытка создать глобальную онтологию — обречена на провал, потому что метаданные описывают лишь некоторое представление о мире. Проектировщики советской системы библиотечной каталогизации фиксировали свое представление о мире, когда они выделили в качестве первой категории книг «Работы классиков Марксизма-Ленинизма». Мэлвин Дэвью тоже фиксировал свое представление о мире, когда он огульно разместил все книги о не Христианских религиях в одну категорию, и при том последнюю категорию из всех о религии. Нет никакой возможности точно отобразить одну из этих систем на другую, или еще на какую-нибудь схему классификации. Это описания разных миров.

Из-за того, что метаданные описывают точки зрения, несовместимость — неизбежный побочный продукт их использования. Будет сравнительно просто, например, закодировать описание генов на XML, но будет абсолютно не возможно создать универсальный стандарт для таких описаний, потому что биологи все еще спорят о том, что такое есть ген в действительности. Существует несколько, конкурирующих между собой, стандартов для описания генетической информации, и расхождение в семантике является естественным результатом живой дискуссии между биологами. Вы не можете получить стандарт пока у вас нет согласия, и вы не можете навязать соглашение там, где, в действительности, никакой общей точки зрения нет.

Более того, когда мы видим попытки навязать семантику в области взаимоотношений между людьми , это заканчивается поражением семантики, и не делает связи более информативными. Сервисы социальных сетей, такие как Friendster и LinkedIn предполагают, что люди будут трактовать связи друг с другом как внешние сигналы о глубоких ассоциациях, так что социальная сеть, в том виде как она представлена программным обеспечением, будет точной моделью реального мира. На самом деле, концепция друзей, или даже просто тип и глубина связи необходимой для того, чтобы сказать, что вы знаете кого-то, довольно ненадежна, и как результат, связи между людьми на Friendster лишаются значительной части своего первоначального смысла. Попытка выразить неявные и туманные взаимоотношения ясным и явным способом не проясняют смысл, а разрушают его.

Чем хуже — тем лучше

В продолжение аргументов Ричарда Габриэля Чем хуже — тем лучше, Семантический Веб предполагает, что полнота и корректность данных опубликованных в Сети — главная добродетель, и что любая степень сложности реализации приемлема в погоне за этой добродетелью. Проблема заключается в том, что чем больше семантической целостности требуется стандартом, тем сложнее выбор оптимального соотношения между сложностью и масштабируемостью. Легко заключить всеобъемлющее соглашение в маленькой группе пользователей, или наоборот, но не и то и другое вместе.

Легко масштабируемые системы считают простую реализацию ключевым достоинством, начиная от Ethernet и Token Ring до Веба, gopher и WAIS. Наиболее широко признанный, за всю историю, цифровой идентификатор — URL рассматривает семантику, как не имеющую отношение к делу болтовню «озабоченных взрослых», и не делает относительно нее никаких предположений, вне зависимости от вида ссылки: sports.yahoo.com/nfl/ — есть правильный URL, также как и 12.0.0.1/ftrjjk.ppq Факт, что URL, сам по себе, не должен ничего значить, является ключевым. Веб имеет успех отчасти из-за того, что не пытается делать никаких предположений о смысле документов в Сети, только об их местонахождении.

Существует целый список технологий, которые, на самом деле, являются ни чем иным как политической философией, замаскированной под код. Список, который включает Xanadu, Freenet, а теперь и Семантический Веб. Трудно спорить с философским аргументом Семантического Веба — мир должен создавать больше смысла, чем он создает. Семантический Веб, с его аккуратными онтологиями и с его логикой силлогизмов — прелестная мечта. Однако, как и многие другие мечты, которые эксплуатируют будущие выгоды от проекта, но игнорируют текущие затраты на его реализацию, он требует слишком много координации и слишком много энергии, чтобы оказывать влияние на реальный мир, где дедукция не столь эффективна, и где общее представление о мире труднее создать, чем нам кажется.

Большинство из предлагаемых преимуществ Семантического Веба будет реализовано, но реализовано не благодаря Семантическому Вебу. Количество генерируемых нами метаданных резко увеличивается, и они публикуются для использования как машинами, так и людьми, или только машинами. Но они проектируются шаг за шагом, без своекорыстия, и не принимая во внимание глобальную онтологию. Воспринимаются пользователями они также, по частям, и они принесут с собой всю несовместимость и сложность, которую заключают в себе. Существуют серьезные недостатки у этого процесса по сравнению с блестящими мечтаниями о Семантическом Вебе, но главным преимуществом этой, построенной с низу вверх, конструкции является то, что она действительно работает.

Перевод: Михаил Навренюк