4. Гипертекстовые технологии представления текста - Учебно-методический комплекс дисциплина: квантитативная лингвистика...

Учебно-методический комплекс дисциплина: квантитативная лингвистика и новые информационные технологии


Скачать 0.79 Mb.
Название Учебно-методический комплекс дисциплина: квантитативная лингвистика и новые информационные технологии
страница 3/6
Тип Учебно-методический комплекс
rykovodstvo.ru > Руководство эксплуатация > Учебно-методический комплекс
1   2   3   4   5   6

4. Гипертекстовые технологии представления текста

История. Теоретические основания гипертекста. Компоненты гипертекста. Элементы типологии гипертекста. Некоторые гипертекстовые системы.
Гипертекст - текст со вставленными в него словами (командами) разметки, ссылающимися на другие места этого текста, другие документы, картинки и т.д. Основные компоненты технологии World Wide Web. К 1989 году гипертекст представлял новую, многообещающую технологию, которая имела относительно большое число реализаций с одной стороны, а с другой стороны делались попытки построить формальные модели гипертекстовых систем, которые носили скорее описательный характер и были навеяны успехом реляционного подхода описания данных. Идея Т. Бернерс-Ли заключалась в том, чтобы применить гипертекстовую модель к информационным ресурсам, распределенным в сети, и сделать это максимально простым способом. Он заложил три краеугольных камня системы из четырех существующих ныне, разработав: язык гипертекстовой разметки документов HTML (HyperText Markup Lan-guage); универсальный способ адресации ресурсов в сети URL (Universal Resource Locator); протокол обмена гипертекстовой информацией HTTP (HyperText Transfer Protocol). Позже команда NCSA добавила к этим трем компонентам четвертый: универсальный интерфейс шлюзов CGI (Common Gateway Interface). Идея HTML - пример чрезвычайно удачного решения проблемы построения гипертекстовой системы при помощи специального средства управления отображением. На разработку языка гипертекстовой разметки существенное влияние оказали два фактора: исследования в области интерфейсов гипертекстовых систем и желание обеспечить простой и быстрый способ создания гипертекстовой базы данных, распределенной на сети. В 1989 году активно обсуждалась проблема интерфейса гипертекстовых систем, т.е. способов отображения гипертекстовой информации и навигации в гипертекстовой сети. Значение гипертекстовой технологии сравнивали со значением книгопечатания. Утверждалось, что лист бумаги и компьютерные средства отображения/воспроизведения серьезно отличаются друг от друга, и поэтому форма представления информации тоже должна отличаться. Наиболее эффективной формой организации гипертекста были признаны контекстные гипертекстовые ссылки, а кроме того было признано деление на ссылки, ассоциированные со всем документом в целом и отдельными его частями. Самым простым способом создания любого документа является его набивка в текстовом редакторе. Опыт создания хорошо размеченных для последующего отображения документов в CERN-е был - трудно найти физика, который не пользовался бы системой TeX или LaTeX. Кроме того к тому времени существовал стандарт языка разметки - Standard Generalised Markup Language (SGML). Следует также принять во внимание, что согласно своим предложениям Т. Бернерс-Ли предполагал объединить в единую систему имеющиеся информационные ресурсы CERN, и первыми демонстрационными системами должны были стать системы для NeXT и VAX/VMS. Обычно гипертекстовые системы имеют специальные программные средства построения гипертекстовых связей. Сами гипертекстовые ссылки хранятся в специальных форматах или даже составляют специальные файлы. Такой подход хорош для локальной системы, но не для распределенной на множестве различных компьютерных платформ. В HTML гипертекстовые ссылки встроены в тело документа и хранятся как его часть. Часто в системах применяют специальные форматы хранения данных для повышения эффективности доступа. В WWW документы - это обычные ASCII- файлы, которые можно подготовить в любом текстовом редакторе. Таким образом, проблема создания гипертекстовой базы данных была решена чрезвычайно просто. В качестве базы для разработки языка гипертекстовой разметки был выбран SGML (Standard Generalised Markup Language). Следуя академическим традициям, Бернерс-Ли описал HTML в терминах SGML (как описывают язык программирования в терминах формы Бекуса-Наура). Естественно, что в HTML были реализованы все разметки, связанные с выделением параграфов, шрифтов, стилей и т. п., т.к. реализация для NeXT подразумевала графический интерфейс. Важным компонентом языка стало описание встроенных и ассоциированных гипертекстовых ссылок, встроенной графики и обеспечение возможности поиска по ключевым словам. В настоящее время совершенствуется механизм разработки типовых стилей. Фактически, в настоящее время HTML развивается в сторону создания стандартного языка разработки интерфейсов как локальных, так и распределенных систем. Вторым краеугольным камнем WWW стала универсальная форма адресации информационных ресурсов. Universal Resource Identification (URI) представляет собой довольно стройную систему, учитывающую опыт адресации и идентификации e-mail, Gopher, WAIS, telnet, ftp и т. п. E-mail (Electronic mail) - электронная почта. Gopher - это интегратор возможностей Internet. Он в удобной форме позволяет пользоваться всеми услугами, предоставляемыми Internet. WAIS - диалоговая система с оконным интерфейсом для поиска данных по ключевым словам в контексте. Telnet имеет и свой собственный набор команд, которые управляют собственно этой программой, т.е. сеансом связи, его параметрами, открытием новых, закрытием и т.д.; эти команды подаются из командного режима telnet, в который можно перейти, нажав так называемую escape-последовательность клавиш, которая вам сообщается при достижении удаленной машины. ftp (File Transfer Protocol) - протокол передачи файлов - протокол, определяющий правила передачи файлов с одного компьютера на другой. ftp - также название программы из прикладного обеспечения. Использует протокол ftp для того, чтобы пересылать файлы. Но реально из всего, что описано в URI, для организации баз данных в WWW требуется только Universal Resource Locator (URL). Без наличия этой спецификации вся мощь HTML оказалась бы бесполезной. URL используется в гипертекстовых ссылках и обеспечивает доступ к распределенным ресурсам сети. В URL можно адресовать как другие гипертекстовые документы формата HTML, так и ресурсы e-mail, telnet, ftp, Gopher, WAIS, например. Различные интерфейсные программы по разному осуществляют доступ к этим ресурсам. Одни, как например Netscape, сами способны поддерживать взаимодействие по протоколам, отличным от протокола HTTP, базового для WWW, другие, как например Chimera, вызывают для этой цели внешние программы. Однако, даже в первом случае, базовой формой представления отображаемой информации является HTML, а ссылки на другие ресурсы имеют форму URL. Следует отметить, что программы обработки электронной почты в формате MIME также имеют возможность отображать документы, представленные в формате HTML. Для этой цели в MIME зарезервирован тип "text/html". Третьим в списке стоит протокол обмена данными в World Wide Web - HyperText Transfer Protocol. Данный протокол предназначен для обмена гипертекстовыми документами и учитывает специфику такого обмена. Так в процессе взаимодействия, клиент может получить новый адрес ресурса на сети (relocation), запросить встроенную графику, принять и передать параметры и т. п. Управление в HTTP реализовано в виде ASCII-команд. Реально разработчик гипертекстовой базы данных сталкивается с элементами протокола только при использовании внешних расчетных программ или при доступе к внешним относительно WWW информационным ресурсам, например базам данных. Последняя составляющая технологии WWW - это уже плод работы группы NCSA - спецификация Common Gateway Interface. CGI была специально разработана для расширения возможностей WWW за счет подключения всевозможного внешнего программного обеспечения. Такой подход логично продолжал принцип публичности и простоты разработки, и наращивания возможностей WWW. Если команда CERN предложила простой и быстрый способ разработки баз данных, то NCSA развила этот принцип на разработку программных средств. Надо заметить, что в общедоступной библиотеке CERN были модули, позволяющие программистам подключать свои программы к серверу HTTP, но это требовало использования этой библиотеки. Предложенный и описанный в CGI способ подключения не требовал дополнительных библиотек и буквально ошеломлял своей простотой. Сервер взаимодействовал с программами через стандартные потоки ввода/вывода, что упрощает программирование до предела. При реализации CGI чрезвычайно важное место заняли методы доступа, описанные в HTTP. И хотя реально используются только два из них (GET и POST), опыт развития HTML показывает, что сообщество WWW ждет развития и CGI по мере усложнения задач, в которых будет использоваться WWW-технология. Архитектура WWW-технологии. WWW построена по хорошо известной схеме "клиент-сервер". Программа-клиент выполняет функции интерфейса пользователя и обеспечивает доступ практически ко всем информационным ресурсам Internet. В этом смысле она выходит за обычные рамки работы клиента только с сервером определенного протокола, как это происходит в telnet, например. Отчасти, довольно широко распространенное мнение, что Mosaic или Netscape, которые безусловно являются WWW-клиентами, это просто графический интерфейс в Internet, является отчасти верным. Однако, как уже было отмечено, базовые компоненты WWW-технологии (HTML и URL) играют при доступе к другим ресурсам Mosaic не последнюю роль, и поэтому мультипротокольные клиенты должны быть отнесены именно к World Wide Web, а не к другим информационным технологиям Internet. Фактически, клиент - это интерпретатор HTML. И как типичный интерпретатор, клиент в зависимости от команд (разметки) выполняет различные функции. В круг этих функций входит не только размещение текста на экране, но обмен информацией с сервером по мере анализа полученного HTML-текста, что наиболее наглядно происходит при отображении встроенных в текст графических образов. При анализе URL-спецификации или по командам сервера клиент запускает дополнительные внешние программы для работы с документами в форматах, отличных от HTML, например GIF, JPEG, MPEG, Postscript и т. п. Вообще говоря для запуска клиентом программ независимо от типа документа была разработана программа Luncher, но в последнее время гораздо большее распространение получил механизм согласования запускаемых программ через MIME-типы. Другую часть программного комплекса WWW составляет сервер протокола HTTP, базы данных документов в формате HTML, управляемые сервером, и программное обеспечение, разработанное в стандарте спецификации CGI. До самого последнего времени (до образования Netscape) реально использовалось два HTTP-сервера: сервер CERN и сервер NCSA. Но в настоящее время число базовых серверов расширилось. Появился очень неплохой сервер для MS-Windows и Apachie-сервер для Unix-платформ. Существуют и другие, но два последних можно выделить из соображений доступности использования. Сервер для Windows - это shareware, но без встроенного самоликвидатора, как в Netscape. Учитывая распространенность персоналок в нашей стране, такое программное обеспечение дает возможность попробовать, что такое WWW. Второй сервер - это ответ на угрозу коммерциализации. Netscape уже не распространяет свой сервер Netsite свободно и прошел слух, что NCSA-сервер также будет распространяться на коммерческой основе. В результате был разработан Apachie, который по словам его авторов будет freeware, и реализует новые дополнения к протоколу HTTP, связанные с защитой от несанкционированного доступа, которые предложены группой по разработке этого протокола и реализуются практически во всех коммерческих серверах. База данных HTML-документов - это часть файловой системы, которая содержит текстовые файлы в формате HTML и связанные с ними графику и другие ресурсы. Особое внимание хотелось бы обратить на документы, содержащие элементы экранных форм. Эти документы реально обеспечивают доступ к внешнему программному обеспечению. Прикладное программное обеспечение, работающее с сервером, можно разделить на программы-шлюзы и прочие. Шлюзы - это программы, обеспечивающие взаимодействие сервера с серверами других протоколов, например ftp, или с распределенными на сети серверами Oracle. Прочие программы - это программы, принимающие данные от сервера и выполняющие какие-либо действия: получение текущей даты, реализацию графических ссылок, доступ к локальным базам данных или просто расчеты. Завершая обсуждение архитектуры World Wide Web хотелось бы еще раз подчеркнуть, что ее компоненты существуют практически для всех типов компьютерных платформ и свободно доступны в сети. Любой, кто имеет доступ в Internet, может создать свой WWW-сервер, или, по крайней мере, посмотреть информацию с других серверов.
5. Прикладные аспекты квантитативной лингвистики

Проблематика квантитативной лингвистики с теоретической и прикладной точек зрения. Основные области приложения структурно-вероятностной модели языка. Авторизация текста: пример экспертизы. Психолингвистика как приложение лингвистики.
Квантитати́вная лингви́стика (англ. quantitative linguistics) - это раздел общей лингвистики и, в частности, математической лингвистики. Квантитативная лингвистика (КЛ) занимается исследованием процесса изучения языка, его изменения и сферы применения, а также структуры естественных языков. Квантитативная лингвистика исследует язык при помощи статистических методов; её конечная цель - сформулировать законы, по которым функционирует язык и, в конечном счете, построить общую теорию языка в виде совокупности взаимосвязанных законов функционирования языков. Специально для этой цели была создана синергетическая лингвистика (Synergetic linguistics). Квантитативная лингвистика эмпирически основывается на результатах языковой статистики, которая, в свою очередь, может интерпретироваться как статистика языков или статистика лингвистического объекта. Эта область знаний не обязательно связана с фундаментальными научными целями. Корпусная лингвистика и компьютерная лингвистика также вносят свой вклад в квантитативную лингвистику, поставляя важные эмпирические данные. В квантитативной лингвистике под законом понимается класс гипотез, выведенных из теоретических допущений, математически сформулированных, взаимосвязанных с другими законами в этой области и в достаточном объёме и успешно проверенных на эмпирических данных, то есть таких, которые нельзя было опровергнуть несмотря на многочисленные попытки. Авторове́дческая эксперти́за - исследование текста (чаще всего - печатного) с целью установления авторства (атрибуция произведения) или получения каких-либо сведений об авторе и условиях создания текстового документа. Предметом автороведческой экспертизы являются сведения об авторе и условиях создания текстового документа. Объектом автороведческой экспертизы является письменная речь автора (составителя) текста. В более широком смысле объектом признаются тексты документов. В качестве текста могут выступать, по отдельности либо в совокупности, различные записи (например, дневниковые), письма, официальные документы, литературные произведения, тексты публичных выступлений и так далее. В отличие от почерковедческой (графической) экспертизы, где исследуется графическое исполнение текста, в данном случае анализируются его лингвистические особенности. Задачи экспертизы разделяются на две группы: идентификационные - проверка авторства; подтверждение авторства определённого лица; исключение авторства определённого лица; проверка того, что автором всего текста был один и тот же человек. Проверка того, что написавший текст является при этом его настоящим автором. Диагностические - определение личностных характеристик автора, таких как: образовательный уровень; родной язык, знание иностранных языков; происхождение, место постоянного проживания; область деятельности, профессия, хобби; пол, возраст, социальное положение, национальность и прочие социальные характеристики; наличие навыков определённого стиля письменной речи; определение факта сознательного искажения письменной речи. Идентификационные задачи автороведческой экспертизы решаются в тех случаях, когда требуется подтвердить или опровергнуть авторство определённого лица (лиц) по отношению к тому или иному тексту, причём предполагаемый автор текста известен и непосредственно доступен. Наиболее очевидные примеры - доказательство или опровержение факта литературного плагиата и доказательство авторства в делах, связанных с правами на литературные произведения. В таких случаях экспертиза заключается в сопоставлении проверяемого текста с текстами, бесспорным автором которых является проверяемое лицо. Диагностические задачи экспертиза решает в тех случаях, когда необходимо установить личность автора какого-либо текста, например, определить автора анонимного письма или подложного документа. В этих случаях сопоставить исследуемый текст с другими текстами автора, как правило, невозможно, и экспертиза заключается в определении (на основании анализа текста) личностных характеристик автора, знание которых позволит выявить ограниченный круг лиц, подлежащих проверке уже другими методами. После установления личности подозреваемого в написании данного текста возможно решение уже идентификационной задачи - подтверждение или опровержение его авторства. Решаются и более специфические задачи, в частности, определение психического состояния автора в момент создания текста, выявление факта написания текста в необычных условиях, поиск текстов, написанных под диктовку другого человека. Психолингви́стика - дисциплина, которая находится на стыке психологии и лингвистики. Изучает взаимоотношение языка, мышления и сознания. Возникла в 1953 году. Сам термин психолингвистика впервые был употреблен в 1946 году Николаем Пронко. У психолингвистики три основных теоретических источника. Первый - психологическое направление в языкознании. Языковеды прошлых веков писали о том, что язык - это деятельность духа и отражение культуры народа. При этом они отмечали, что язык содержит в себе не только физический, но и психический компонент, и тем самым принадлежит индивидууму. Являясь условием общения и регулируя деятельность человека, язык ограничивает познание мира и делает невозможным полное понимание другого человека. Одной из ключевых теорий в истории психолингвистики стала гипотеза Сепира - Уорфа (гипотеза лингвистической относительности). Именно благодаря активному интересу Б. Л. Уорфа к взаимоотношению языка и мышления этот вопрос стал активно подниматься и изучаться в научном мире. Второй источник психолингвистики - работы американских структуралистов, и, прежде всего, Н. Хомского, который полагал, что владение языком основано на способности производить правильные предложения. Третьим источником психолингвистики являются работы психологов, занимавшихся вопросами языка и речи. В работах Л.С. Выготского организация процесса производства речитрактуется как последовательность фаз деятельности (мотивация - мысль - внутреннее слово - реализация). В концепции Л.В. Щербы постулируется наличие языкового материала (текстов), языковой системы (словарей и грамматики) и языковой деятельности (как говорения и понимания речи). Отечественная психолингвистика сформировалась прежде всего как теория речевой деятельности. Психолингвистика занимается: описанием речевых сообщений на основе изучения механизмов порождения и восприятия речи; изучением функций речевой деятельности в обществе; исследованием связи между речевыми сообщениями и характеристиками участников коммуникации (превращение намерений говорящего в сообщения, интерпретация их слушающим); анализом речевого развития в связи с развитием личности.
1   2   3   4   5   6

Похожие:

Учебно-методический комплекс дисциплина: квантитативная лингвистика и новые информационные технологии icon Учебно-методический комплекс дисциплина: информационные технологии в лингвистике
«Теория и методика преподавания иностранных языков и культур» и «Перевод и переводоведение»
Учебно-методический комплекс дисциплина: квантитативная лингвистика и новые информационные технологии icon Учебно-методический комплекс дисциплины «информационные технологии управления»
Учебно-методический комплекс составлен в соответствии с требованиями государственного стандарта высшего профессионального образования...
Учебно-методический комплекс дисциплина: квантитативная лингвистика и новые информационные технологии icon Учебно-методический комплекс дисциплины «информационные технологии...
Учебно-методический комплекс составлен в соответствии с требованиями государственного образовательного стандарта высшего профессионального...
Учебно-методический комплекс дисциплина: квантитативная лингвистика и новые информационные технологии icon Учебно-методический комплекс дисциплины «Информационные технологии...
Учебно-методический комплекс составлен в соответствии с требованиями федерального государственного образовательного стандарта высшего...
Учебно-методический комплекс дисциплина: квантитативная лингвистика и новые информационные технологии icon Учебно-методический комплекс дисциплины «Информационные технологии...
Учебно-методический комплекс составлен в соответствии с требованиями федерального государственного образовательного стандарта высшего...
Учебно-методический комплекс дисциплина: квантитативная лингвистика и новые информационные технологии icon Учебно-методический комплекс дисциплины «Информационные технологии...
Учебно-методический комплекс составлен в соответствии с требованиями федерального государственного образовательного стандарта высшего...
Учебно-методический комплекс дисциплина: квантитативная лингвистика и новые информационные технологии icon Учебно-методический комплекс по дисциплине сд. 08 Информационные...
Учебно-методический комплекс по дисциплине «Информационные технологии в профессиональной деятельности» составлен в соответствии с...
Учебно-методический комплекс дисциплина: квантитативная лингвистика и новые информационные технологии icon Учебно-методический комплекс дисциплины «информационные технологии рынка ценных бумаг»
Учебно-методический комплекс составлен в соответствии с требованиями Государственного образовательного стандарта высшего профессионального...
Учебно-методический комплекс дисциплина: квантитативная лингвистика и новые информационные технологии icon Учебно-методический комплекс дисциплины «информационные системы в экономике»
Учебно-методический комплекс составлен в соответствии с требованиями государственного образовательного стандарта высшего профессионального...
Учебно-методический комплекс дисциплина: квантитативная лингвистика и новые информационные технологии icon Учебно-методический комплекс составлен на основании требований государственного...
Учебно-методический комплекс дисциплины обсуждена на заседании кафедры Информационные системы управления «29» июня 2011 г
Учебно-методический комплекс дисциплина: квантитативная лингвистика и новые информационные технологии icon Учебно-методический комплекс дисциплины «Информационные технологии»
Контрольный экземпляр находится на кафедре бизнес-информатики и экономико-математических методов
Учебно-методический комплекс дисциплина: квантитативная лингвистика и новые информационные технологии icon «информационные технологии в профессиональной деятельности: учебно-методический комплекс»
Государственное автономное профессиональное образовательное учреждение чистопольский сельскохозяйственный техникум
Учебно-методический комплекс дисциплина: квантитативная лингвистика и новые информационные технологии icon Учебно-методический комплекс специальные технологии для специальности:...
О 26 Специальные технологии: учебно-методический комплекс / Л. К. Обухова. – Елабуга: Изд-во егпу, 2009. – 51 с
Учебно-методический комплекс дисциплина: квантитативная лингвистика и новые информационные технологии icon Учебно-методический комплекс дисциплины «компьютерные технологии в науке и технике»
Учебно-методический комплекс составлен на основании требований федерального государственного образовательного стандарта высшего профессионального...
Учебно-методический комплекс дисциплина: квантитативная лингвистика и новые информационные технологии icon Учебно-методический комплекс дисциплины «Компьютерные технологии»
Учебно-методический комплекс составлен в соответствии с требованиями федерального государственного стандарта высшего профессионального...
Учебно-методический комплекс дисциплина: квантитативная лингвистика и новые информационные технологии icon Учебно-методический комплекс дисциплины опд. Ф. 7 Информационные...
...

Руководство, инструкция по применению




При копировании материала укажите ссылку © 2024
контакты
rykovodstvo.ru
Поиск