Stanislav Taktaev personal web site
Персональный сайт Станислава Тактаева.
 

Search

 | 

Новости/News

 | 

Русский

 | 

English

Форум / Discussion ||

Оценка размерности пространства понятий

Размерность ПП можно оценить как число признаков, достаточных для однозначного определения того или иного понятия. То есть, сопоставив признак понятия c измерением ПП, мы получаем положение конкретного понятия на оси координат. Следовательно, определив число признаков, достаточных для определения данного понятия, мы получим оценку размерности ПП, достаточную для практических целей.

Оценка снизу

Проведем «оценку снизу» размерности ПП

Очевидно, для однозначного сопоставления данному числу понятий нужно соответствующее количество уникальных «ячеек» в ПП, то есть всех возможных значений координат.

Следовательно, размерность ПП будет определяться исходя из соотношения

N=km, где N- число ячеек для понятий, m – число признаков (размерность ПП), а k – количество возможных значений каждого признака.

То есть размерность ПП : m= LogkN

Примем число понятий N< 10 6 ( в русском, английском языке реальное число понятий – 300-500 тыс).

Очевидно, что максимальная размерность ПП будет при минимальном k, k=2 (Если определить число признаков исходя из бинарной логики - (есть признак или его нет))

m= Log2 106 ~ 16.

Однако, использование КТПП данной размерности не позволяет осуществлять ранжирование информации с использованием разрешенных и запрещенных областей, поскольку данных подход предполагает наличие «пустых» областей в координатах. Следовательно, данная оценка верна как оценка размерности «снизу». Однако, данная оценка справедлива и достаточно точна для кода дескриптора (см. Ошибка! Источник ссылки не найден.), то есть очевидно, что полученный результат есть достаточная длина в битах для кода, по сути нумерующего понятия в ПП, то есть 16 бит – это достаточная длина для кода дескриптора.

Практическая оценка

Примем Рабочей гипотезой то, что осям координат должны быть сонаправлены наиболее часто встречающимся действиям, т.е. глаголам. Это очевидно из того, что: количество понятий в развитом (русском) языке – около 200000. Количество глаголов – порядка 10000, причем из них общеупотребительных всего – порядка 500, и они могут быть сгруппированы в примерно в 150 групп . Таким образом, расчетное количество измерений в пространстве понятий – от 150 до 500.

Для практической оценки размерности ПП предлагается модель задана иерархической (доменнойя) структуры (см.ПЕРЕРАБОТАТЬ! Измерения (оси координат) пространства понятий. Точка отсчета.). Пусть задана иерархическая (доменная) структура ПП в виде некоторого каталога. Очевидно, что верхний (корневой) раздел каталога - это есть «мир» и он не имеет каких либо признаков ( и имеет все сразу). По мере движения в иерархической структуре вниз, на каждом уровне добавляется один признак (измерение ПП), при чем для каждого подраздела – свой. То есть, если раздел содержит 10 подразделов, то на этом уровне добавляется 10 признаков - измерений ПП.

Для принятого числа понятий (300-500 тыс.) для группировки их по 10 в группе (принимается, что в одном измерении находится в среднем 10 вариантов значения признака), то для описания данного количества потребуется соответственно 33-55 тыс. Измерений

Существует возможность и прямой практической оценки необходимой размерности по этой модели: количество семантических дифференциалов в языке – пар антонимов. Так, для русского языка, по «Словарю антонимов русского языка» Львова М.Р. ( по изд. 2002 г. Издательство: АСТ-Пресс Книга) Количество антонимических пар – (слов с противоположным значением или - семантических дифференциалов) около 3200.

В английском языке, по «Sakhr's Bilingual Dictionary Al Qamoos: The Language Tools In One Package. New 2004 Edition»,

In addition, the Dictionary contains more than 500,000 final Arabic words and a similar number of English words. The Dictionary includes 25,000 Arabic and 27,000 English synonyms with 10,000 Arabic and 5000 English antonyms.

Т.е. количество семантических дифференциалов (пар антонимов) составит 5000 для английского и 10000 для арабского языка.

You can ask author:

Pls, carefully type your email!

Your E-mail:
Your Question:

Website from "Summatech"
I'll ready to answer to you: Stanislav Taktaev