Связность является одним из важных свойств текстовой информации. Любая информация представляет собой набор тех или иных фактов, причем часть из них непременно связана между собой. Очевидно, что при передаче этой информации в текстовом виде необходимо найти способ сохранить связи. Если этого не сделать, то мы не получим адекватного представления о внешней среде, а только отдельные ее фрагменты, не дающие целостной картины. Каким же образом реализуется связность?
Самым очевидным и логичным способом реализации связности текстовой информации представляется повтор. Суть его состоит в следующем: если предложение А связано с предложением Б, то эти два предложения содержат некоторую одинаковую часть, повторяющуюся информацию, которая и показывает наличие связи между А и Б. Таким образом, приходится жертвовать одним из важнейших принципов организации языкового материала - отсутствием избыточности, но эта жертва необходима для корректной передачи информации о внешней среде.
Далее будем исходить из того, что связность текста сохраняется в пределах одного абзаца.
Чтобы сделать возможным выявление связей, каждое предложение абзаца разбивается на две части: координаты и собственно информацию. Координаты - та самая общая часть, служащая для связи с другими предложениями. Остальная часть содержит уникальную, новую информацию, для передачи которой и служит в тексте это предложение. Существует три типа связности, различающиеся схемами построения координатных зависимостей:
1. Описание «вглубь» (1). В этом случае связность реализуется последовательной цепочкой, то есть предложение 1 связано с 2, 2 с 3 и т. д.
2. Описание «вширь» (2). В этом случае связность реализуется по параллельному принципу, когда все предложения 2, 3 и т. д. связаны с предложением 1.
3. Комбинированная схема (3). Представляет собой смешанный вариант 1 и 2.
Лингвистический процессор может решать две задачи, имеющие отношение к связности:
· Задача анализа. В этом случае целью является выявление всех связей между предложениями некоторого текста.
· Задача синтеза. Цель этой задачи - построение текста, описывающего некоторый фрагмент внешней среды с сохранением связей между объектами.
Далее будет рассмотрен алгоритм решения задачи анализа.
Перед тем как описывать алгоритм программной реализации задачи анализа, необходимо сделать одно замечание. Для качественного решения задачи требуется наличие достаточно обширной базы данных, в которой хранились бы сведения о различных морфологических представлениях слов, а также, для еще более полной картины, соответствия между словами-синонимами. В данной работе задача реализации такой базы данных не рассматривается. Описываемый алгоритм определяет связи в тексте только путем поиска повторяющихся слов.
Работа алгоритма происходит в следующей последовательности:
1. Предварительный анализ текста с целью разбиения его на отдельные предложения. Предложение считается законченным, как только обнаружена точка, причем за точкой следует либо большая буква, либо ничего, если конец предложения одновременно является концом текста.
2. Анализ предложений с целью выделения отдельных слов. Предполагается, что слова разделяются пробелами или другими символами-разделителями.
3. Создание двумерного массива, в котором одна координата определяет порядковый номер предложения, а другая - порядковый номер слова в этом предложении.
4. Поиск связей для каждого слова текста. Этот поиск происходит в цикле и состоит из таких этапов:
a) чтение следующего слова и его проверка. Слова длиной меньше трех символов не анализируются, чтобы исключить ошибочные связи по союзам, предлогам и т.п.;
b) поиск в тексте слов, у которых совпадает с данным словом не менее 3 первых символов и не менее 3/4 от его длины. Таким образом учитывается возможность наличия у повторяющихся слов разных окончаний. Можно также ограничивать глубину поиска, т. е. количество предложений после текущего, в которых необходимо искать связи. Если производить поиск только в одном следующем предложении, то будут найдены только связи по схеме (1);
c) запоминание координат найденных связей в массиве. При этом создается таблица, в которой вводится запись для каждого набора координат. Если работать только по схеме (1), то эти записи будут представлять собой пары.
5. По окончании цикла может быть построена схема, демонстрирующая все связи в тексте.
6. Возможно также произвести разбиение текста на абзацы: началом нового абзаца считается предложение, в котором нет ни одной связи с каким-либо из слов предыдущей части текста.
Алгоритм не дает гарантии правильности полученного результата. В частности, возможны следующие ошибки:
· нахождение несуществующих связей по вспомогательным частям речи;
· нахождение несуществующих связей по сходным в написании, но не однокоренным словам;
· потеря связей по коротким словам.
Избежать этих ошибок можно, как уже говорилось, только при дополнении программы базой данных.
Другие работы по теме:
Обеспечение качества моделирования бизнес-процессов
Моделирование бизнес-процессов — одно из наиболее динамично развивающихся направлений системного анализа. Но, несмотря на то, что существует множество инструментов и методик моделирования бизнес - процессов, нет единых стандартов их качества.
Методы запоминания текстовой информации
Ни для кого не секрет, что в учебных заведениях вооружают разнообразными знаниями, но при этом не обучают тому, как правильно воспринимать, запоминать и припоминать полученную информацию.
Название курсовой работы
Закрепление на практике теоретических знаний, развитие умений и практических навыков использования статистических методов управления качеством в различных ситуациях
курсовая работа 28с., 25 источников. Цель работы
Сегодня категория связности текста рассматривается с различных позиций. Наиболее актуальным на сегодняшний день является семантико-синтаксический подход, позволяющий всестороннее и глубоко анализировать различные виды связности текста и средства их выражения
Разработка фирменного стиля
Каждая компания имеет логотип — графический символ, отражающий специфику деятельности предприятия. Логотип обычно используется вместе с названием и реквизитами фирмы. Существует некие правила расположения логотипа, названия фирмы и ее реквизитов по отношению к другой текстовой и графической информации, называемые
Андрей Белый
Особый жанр поэта – симфония – особый вид литературного изложения. Стихотворение "Тело стихий".
Расчёт параметров телевизионного устройства
ФЕДЕРАЛЬНОЕ АГЕНТСТВО ВОЗДУШНОГО ТРАНСПОРТА ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ ВЫСШЕГО ПРОФЕССИОНАЛЬНОГО ОБРАЗОВАНИЯ «МОСКОВСКИЙ ГОСУДАРСТВЕННЫЙ ТЕХНИЧЕСКИЙ УНИВЕРСИТЕТ ГРАЖДАНСКОЙ АВИАЦИИ»
Бражник Мегера
Введение 1 Общая характеристика 2 Классификация Список литературы Введение Бра́жник Меге́ра[2] — род (Euchloron Boisduval, 1875) и вид (Euchloron megaera (Linnaeus, 1758)) африканских ночных бабочек из семейства бражников (Sphingidae Latreille, 1802) с толстым брюшком и толстыми заостренными антеннами.
Правила оформления компьютерных презентаций
Многие дизайнеры утверждают, что законов и правил в дизайне нет. Есть советы, рекомендации, приемы. Дизайн, как всякий вид творчества, искусства, как всякий способ одних людей общаться с другими, как язык, как мысль — обойдет любые правила и законы.
Вывод информации
Устройство вывода информации Мониторы. Монитор (дисплей) компьютера предназначен для вывода на экран текстовой и графической информации. Размер экрана.
Принтеры
История развития принтеров и использование.
Мониторы, применение
Российский Новый Университет РЕФЕРАТ на тему: «Монитор» Проверил: Выполнил (а): _________________ __________________ _________________ __________________
Кодирование информации 2
Оглавление Кодирование информации 3 Кодирование текстовой информации 5 Кодирование графической информации 7 Кодирование звуковой информации 10 Использованная литература: 13
Компоненты системы обработки данных
Лабораторная работа № 1 Компоненты системы обработки данных Основная функция системы обработки данных это реализация типовых операций над данными. Система обработки данных образует вычислительную систему, к которым относятся:
Устройства ввода вывода информации
Персональный компьютер Персональный компьютер – универсальная техническая система. Его конфигурацию можно гибко изменять по мере необходимости. Тем не менее, существует понятие базовой конфигурации.
Текстовый редактор и его назначение
Text Нельзя набирать в разных строках фамилии и инициалы, к ним относящиеся, а также отделять один инициал от другого. Нельзя набирать в разных строках фамилии и инициалы, к ним относящиеся, а также отделять один инициал от другого. (Сидоров И.П.) Graphics
Кодирование текстовой информации
Кодирование текстовой информации Начиная с конца 60-х годов, компьютеры все больше стали использоваться для обработки текстовой информации, и в настоящее время основная доля персональных компьютеров в мире (и большая часть времени) занята обработкой именно текстовой информации. Современный компьютер может обрабатывать числовую, текстовую, графическую, звуковую и видео информацию.
Цели и направления внедрения средств информатизации и коммуникации в образование
Цели и направления внедрения средств информатизации и коммуникации в образование Материал из IrkutskWiki. Перейти к: навигация, поиск Компьютеризация школьного образования относится к числу крупномасштабных инноваций, пришедших в российскую школу в последние десятилетия. В настоящее время принято выделять следующие основные направления внедрения компьютерной техники в образовании:
Компьютерные переводчики
Text Graphics Компьютерные переводчики Технология обработки текстовой информации Graphics Программы переводчики Знание хотя бы одного иностранного языка необходимо сегодня всем, как воздух. В особенности пользователям: ведь избежать столкновения с английским языком при работе на компьютере, увы, невозможно.
Тесты по информатике с ответами Вариант 3
1) Чему равен 1 Кбайт? 1. 1000 бит 2. 1000 байт 3. 1024 бит 4. 1024 байт 2) Какое устройство обладает наибольшей скоростью обмена информацией? 1. CD-ROM дисковод 2. жесткий диск
ГИА информатика 2009 кодификатор
Государственная (итоговая) аттестация выпускников IX классов общеобразовательных учреждений 2009 г. (в новой форме) по ИНФОРМАТИКЕ И ИКТ Кодификатор элементов содержания по ИНФОРМАТИКЕ И ИКТ