В работе Белоногова Г. Г. и Зеленкова Ю. Г. описывается принцип построения алгоритма морфологического анализа текстов на основе принципа аналогии. Данный принцип используется в системах орфографического контроля русских текстов, системах автоматического индексирования документов и системах машинного перевода текстов с русского языка на английский и с английского языка на русский. Производительность программы на компьютере с процессором от 386 и выше составляет около 400 слов/с.
При автоматической обработке текста возникает проблема “новых“ слов. Для синтаксического анализа и синтеза необходимо знать грамматические характеристики слов. Если слова в словаре нет, то морфологический анализ не может быть выполнен, а следовательно не могут быть определены грамматические характеристики слова.
Для того, чтобы определить грамматические характеристики слов без словаря, Белоногов предложил принцип аналогии. Он основан на том, что существует сильная корреляционная связь между грамматическими характеристиками слов и буквенным составом их концов. Например: организация, приватизация, концентрация имеют ж. р., им. п. и ед. ч.; работают, понимают, привлекают - это глаголы в 3-ем лице мн. ч. и т. д.
Принцип аналогии проверялся на ряде индоевропейских языков: (русский, болгарский, латышский, испанский, английский) и оказался эффективным. Сначала он применялся для определения грамматических характеристик слов, не включенных в машинный словарь. Затем возникла идея при проведении морфологического анализа отказаться от машинного словаря.
Если по текстам большого объема составить словарь словоформ и назначить каждой словоформе некоторые грамматические признаки, а затем преобразовать данный словарь в обратный словарь словоформ, то можно обнаружить, что многие участки словаря имеют одинаковые наборы признаков.
Обратный словарь словоформ представляет собой список словоформ с такими характеристиками как признак длинны грамматического окончания, номер флективного класса (типа словоизменения) и числовой индекс, характеризующий такие признаки как “глагольность“, “местоименность”, “сравнительная степень”. Например:
масштаба 01/001/01
служба 01/056/01
возникшие 02/105/10
батальон 00/021/01
рассчитывая 00/152/10
Обратный словарь используется для автоматического морфологического анализа текстов, если составляющие их словоформы отождествлять со словоформами словаря и приписывать им грамматическую информацию, указанную в словаре. Словоформам текста, которые не находятся в словаре, можно приписывать грамматическую информацию тех словоформ словаря, концы которых в максимальной степени совпадают с концами этих новых словоформ текста.
Объем обратного словаря можно сократить, если на всех его участках оставить по две словоформы: начальную и конечную. Более того из этих двух словоформ можно оставить только одну, и если словоформа текста не совпадет ни с одной словоформой обратного словаря, то ей приписывается информация непосредственно предшествующей словоформы этого словаря.
Данный сокращенный словарь можно еще сократить, если исключить из него начальные буквы словоформ, не оказывающие влияние на результаты морфологического анализа. При этом у каждой пары рядом стоящих словоформ оставляются справа совпадающие конечные буквосочетания и еще по одной букве, которые не совпадают. Например:
аба 01/001/01
еба 01/044/01
неба 01/071/01
авшие 02/105/10
тальон 00/021/01
тывая 00/152/10
После выполнения всех операций объем словаря сокращается в 8 раз. На точность первоначально включенных в словарь словоформ это не повлияет, а точность анализа остальных словоформ русского языка будет достаточно высокой.
Для морфологического анализа текстов на основе метода аналогии достаточно располагать обратным словарем концов слов. Но авторы разработки сделали еще “Словарь служебных и коротких слов”. В этот словарь были включены сначала предлоги, местоимения, частицы, союзы и короткие слова до 5 букв. Затем в него вошли также словоформы, которые по методу аналогии анализировались неверно. В результате этот словарь увеличился до 11 тысяч словоформ.
Таким образом, в процессе морфологического анализа словоформы ищутся в словаре “Служебных и коротких слов”, а затем в словаре концов словоформ. Результаты анализа, полученные по первому словарю, считаются более надежными, и словоформы, найденные в этом словаре, дальнейшей обработке не подвергаются.
В настоящее время вероятность правильного анализа слов при обработке текстов любой тематики превышает 99%.
В разработке данной системы наряду с авторами данной статьи принимали участие научные сотрудники отдела лингвистических исследований ВИНИТИ: А. П. Новоселов, Е. Ю. Рыжова, С. А. Самоделкина, Ал-др А. Хорошилов, Ал-сей А. Хорошилов, Е. Г. Дружинина.
Другие работы по теме:
Фонология
Фонология - раздел лингвистики ХХ в., изучающий звуки речи в их функциональном, смыслоразличительном отношении. Фонологию не следует путать с фонетикой, изучающей звуки речи в их акустическом звучании. Фонология зародилась в начале ХХ века.
Генеративная поэтика
Генеративная поэтика - направление структурной поэтики, возникшее в России в конце 1960-х гг. под влиянием генеративной лингвистики, а также теоретических идей С. М. Эйзенштейна и морфологии сюжета В. Я. Проппа.
Индукция и аналогия
Полная индукция. Неполная индукция. Метод отсутствия изменений. Метод сходства. Метод различия. Аналогия свойств.
Основные понятия логики
Логические характеристики понятия по содержанию и объему. Противопоставление предикату как вид непосредственно умозаключения. Способы восстановления энтимем и проверка схемы рассуждения на соответствие правилам силлогизма. Ошибки рассуждения по аналогии.
Вероятностные умозаключения
Виды вероятностных умозаключений. Индуктивное умозаключение. Виды индукции. Индуктивные методы установления причинно-следственных связей. Умозаключение по аналогии. Условия состоятельности выводов по аналогии. Аналогия свойств и аналогия отношений.
Процессуальная аналогия
Одной из наиболее противоречивых и нерешенных на законодательном уровне проблем в современном процессуальном праве является вопрос о допустимости процессуальной аналогии.
Иран-контрас
План Введение 1 Расследование в США 2 Рассмотрение дела Международным Судом ООН 3 Причастные к скандалу Введение Иран-контрас (англ. Iran-Contra; также известен как «Ирангейт», по аналогии с «Уотергейтом») — крупный политический скандал в США во второй половине 1980-х годов. Разгорелся в конце 1986 года, когда стало известно о том, что отдельные члены администрации США организовали тайные поставки вооружения в Иран, нарушая тем самым оружейное эмбарго против этой страны.
Тема Кол-во страниц
Морфологические выразительные средства и приемы в современном английском языке
Круги Эйлера, их понятие и виды
МИНИСТЕРСТВО ОБРАЗОВАНИЯ И НАУКИ РОССИЙСКОЙ ФЕДЕРАЦИИ ФЕДЕРАЛЬНОЕ АГЕНСТВО ПО ОБРАЗОВАНИЮ Уральская государственная юридическая академия Регионально-заочный факультет
Морфология
В исследованиях по морфологии естественных языков, проведенных в последние годы отечественными лингвистами, можно выделить несколько крупных направлений: — теоретические исследования по различным вопросам морфологии.
Эджуотер-Парк
Раскопки Эджуотер-Парка Эджуотер-Парк , англ. Edgewater Park — археологический памятник позднего Архаического периода североамериканской истории возрастом около 3800 лет. Находится на реке Айова в г. Коралвиль, штат Айова (en:Coralville, Iowa). Судя по обнаруженным здесь останкам растений, обитатели Эджуотера находились на ранней стадии окультуривания растений, что по аналогии с культурами доисторической Европы примерно соответствует началу мезолита.
О нейтрализации оппозиций
Для изучения фонематической системы языка необязательно знать его с лексической точки зрения, но абсолютно необходимо знать его морфологическую и лексемологическую структуру.
О становлении грамматической науки в Китае
Истоки китайской науки о языке восходят к концу I тысячелетия до н. э. На протяжении многих столетий в качестве основного объекта исследования в ней выступал иероглиф.
Вашингтонский обком
— иронический или презрительный термин, применяемый для описания воображаемого партийного органа, сходного с обкомами КПСС в СССР. Обком КПСС давал партийным чиновникам указания идеологического плана, в особенности о том, как следует высказываться по различным вопросам в соответствии с линией партии.
Английский Кале
Английский Кале (также Калезия Калезис Пэйл Кале — по аналогии с английским Пэйлом Дублина на о. Ирландия; англ. The pale of Calais, фр. Calaisis) — бывший английский полуэксклав на территории современной Франции. Существовал в 1346—1558 гг., хотя его территория постоянно сокращалась из-за стычек с французскими войсками.
Четырёхсторонний статус Берлина
Расположение Берлинской стены с указанием четырёх секторов оккупации Четырёхсторонний статус Берлина — правовое положение бывшей столицы Третьего рейха, оккупированной странами-победительницами после Второй мировой войны, сложившееся в соответствии с решениями Ялтинской конференции 1945 года и предусматривавшее соответствующее разделение города на четыре сектора оккупации по аналогии с четырьмя зонами оккупации страны между Великобританией, США, СССР и Францией.
Структура презентации в PowerPoint
Запланируйте свою презентацию заранее. Охарактеризуйте направленность своей аудитории: техническая, не техническая, управленческая или смешанная.
Компьютерный морфологический разбор слов русского языка
Применение данной статьи важно для тех, кто хочет сделать интерфейс к своей программе на естественном языке или сделать интеллектуальный поиск информации. Для этого нужно в первую очередь сделать морфологический анализ слов текста.
Стили языка 2
Особенностью литературного языка считается наличие функциональных стилей. В зависимости от целей и задач, которые ставятся и решаются во время общения, происходит отбор различных языковых средств и образуются своеобразные разновидности единого литературного языка – функциональные стили. Термин функциональный стиль подчеркивает, что разновидности литературного языка выделяются на основе той функции (роли), которую выполняет язык в каждом конкретном случае.
Недедуктивные умозаключения и умозаключение по аналогии
Аналогия как способ индуктивной аргументации в поддержку оценок: общее понятие, виды: аналогия свойств и отношений, строгая и нестрогая, ложная; моделирование ситуаций. Условия состоятельности выводов по нестрогой аналогии, повышение их вероятности.
Обские угры
В научной литературе общим названием "обские угры" объединяются два современных народа: ханты и манси. Ханты были ранее известны под названием "остяки", "обские остяки" и т.п., а манси под названием "вогулы".
Ценообразование 6
Ценообразование — установление цен, процесс выбора окончательной цены в зависимости от себестоимости продукции, цен конкурентов, соотношения спроса и предложения и других факторов.
Выдающиеся биологи России
Text Graphics Советский биолог, генетик, основоположник современного учения о биологических основах селекции и учения о центрах происхождения культурных растений. Установил древние очаги формообразования культурных растений на территории стран Средиземноморья, Северной Африки, Северной и Южной Америки, собрал крупнейшую в мире коллекцию семян культурных растений.
Функциональная асимметрия полушарий головного мозга 2
Межполушарная асимметрия — одна из фундаментальных закономерностей организации мозга не только человека, но и животных. Проявляется не только в морфологии мозга, но и в межполушарной асимметрии психических процессов.
Роберт Броун
Броун, Роберт (Brown, Robert) (1773–1858), английский ботаник. Родился 21 декабря 1773 в Монтрозе.