Методическое руководство как корректно и единообразно представить текст *. doc Как преобразовать *. txt в аккуратный *doc




Скачать 494.13 Kb.
НазваниеМетодическое руководство как корректно и единообразно представить текст *. doc Как преобразовать *. txt в аккуратный *doc
страница1/3
ТипРуководство
rykovodstvo.ru > Руководство ремонт > Руководство
  1   2   3



Готье Неимущий. Методическое руководство по OCR, *.txt и *.doc

МЕТОДИЧЕСКОЕ РУКОВОДСТВО
Как корректно и единообразно представить текст *.doc

Как преобразовать *.txt в аккуратнЫЙ *doc

Как отформатировать и скорректировать *.doc после OCR
Готье Неимущий (Gautier Sans Avoir). saus@inbox.ru

Январь 2003 г.
ОГЛАВЛЕНИЕ
ОСНОВНЫЕ НЕДОСТАТКИ В ПРАКТИКЕ ЭЛЕКТРОННЫХ БИБЛИОТЕК

О ПРЕДСТАВЛЕННОМ МЕТОДИЧЕСКОМ РУКОВОДСТВЕ
ЧАСТЬ ПЕРВАЯ

Что такое «аккуратное форматирование»

ЧТО ТАКОЕ КОРРЕКТНОЕ И ЕДИНООБРАЗНОЕ ПРЕДСТАВЛЕНИЕ ТЕКСТА

АВЕНТЮРА I

ПРЕДВАРИТЕЛЬНАЯ

АВЕНТЮРА II

ДОКУМЕНТ WORD *.DOC ДОЛЖЕН БЫТЬ...

АВЕНТЮРА III

ПРОБЕЛЫ

АВЕНТЮРА IV

ДЕФИСЫ И ТИРЕ

АВЕНТЮРА V

УСТРАНИ ВСЕ, ЧТО ВОЗМОЖНО, ПОЛУАВТОМАТИЧЕСКИ

АВЕНТЮРА VI

САГА О КАВЫЧКАХ

АВЕНТЮРА VII

СКАЗ О ЗАХРЕБЕТНИКАХ, СОСТАВЛЯЮЩИХ ГОСТы

1. Форма представления выходных данных сканируемой книги или статьи

2. Форма представления номеров ссылок в тексте

3. Порядок нумерации ссылок

АВЕНТЮРА VIII

ПЛАЧ ПО НЕРАЗРЫВНОМУ ПРОБЕЛУ

АВЕНТЮРА IX

ФОРМУЛЫ И ПРОЧАЯ МАТЕМАТИКА

АВЕНТЮРА X

МЕЛКИЕ ХИТРОСТИ БОЛЬШИХ МАСТЕРОВ
ЧАСТЬ ВТОРАЯ

ИЗ УНЫЛОГО ТЕКСТОВОГО ФАЙЛА (*.txt)  — В КРАСИВЫЙ ФАЙЛ

WORD (*.doc)
ЧАСТЬ ТРЕТЬЯ

ОСНОВНЫЕ ПОЖЕЛАНИЯ ПРИ OCR
ОСНОВНЫЕ НЕДОСТАТКИ В ПРАКТИКЕ ЭЛЕКТРОННЫХ БИБЛИОТЕК
Для каждого, кто любил и любит читать, имеется свой ряд книг и публикаций, которые представляют для него особую ценность. Некоторые прочтены когда-то давно и воспоминания о приятном времени общения с ними греют душу. Понятно, что хочется иметь избранные книги в постоянном доступе. Ранее мы были вынуждены их искать, приобретать, обменивать, доставать через сдачу макулатуры и, что греха таить, иногда и «зачитывать». Теперь же мы получили возможность брать их из сети благодаря самоотверженному и бескорыстному труду мастеров OCR. И сами можем пополнять библиотеки в сети (сканер стоит мало).

Нынешнее время — тяжелое время. Мы должны быть постоянно настороже, мы должны быть мобильны. Никто не знает, что случится с ним не то что в отдаленное, но даже в ближайшее будущее. Никто уверенно не скажет, что он через столько-то лет останется жить там, где он живет сейчас. Словом, уверенность в завтрашнем дне у того, кто еще не совсем спятил и видит, что творится кругом, должна отсутствовать с необходимостью. И в таких условиях иметь один-два CD с электронными версиями наиболее важных и интересных для тебя книг — большая удача. Ведь тогда получится «Все свое ношу с собой». Более того, эти CD, в отличие от книг, вполне оправдывают довольно глупое выражение «Рукописи не горят». Горят, друг, еще как горят! А вот про электронные версии действительно можно сказать именно так: даже если испортятся твои CD, где-то в сети все должно остаться. И ты снова выкачаешь. Поэтому труд по составлению электронных библиотек переоценить трудно.

Говорят, что читать с экрана плохо, неудобно и вредно для глаз. Принимаю только последний аргумент. Лично мне, всю жизнь читавшему книги, читать с компьютера приятнее (он до сих пор вызывает у меня щенячий восторг). А насчет глаз... Подождем, братцы, когда создадут нормальные планшетные штуки, которые будут полностью воспроизводить условия прочтения книг. Конечно, идиотская функция по перелистыванию электронных страниц в планшете (слышал, ныне сделали), чтобы было совсем похоже на чтение книги, это извращение. Извращенцы те, кто ее создал. Лучше бы они позаботились создать такие условия яркости и контрастности в своем планшете, которые бы действительно соответствовали параметрам текста на странице в книге. Чтобы глаза не уставали и не портились. Думаю, что это вполне можно сделать и когда-нибудь сделают. Думаю, что и цена будет доступной. И последний аргумент в пользу бумажных книг, связанный с вредностью для глаз чтения с экрана, отпадет. Лично я верю, что до такого дойдут.

Скажут: «Вот, будут всякие пертурбации, безобразия всякие настанут. Свет начнут выключать, как это уже делают сейчас во многих регионах России». Безобразий, в самом деле, вокруг много. Знаю, например, что на новый 2003 г. в целом ряде районов Санкт-Петербурга отключили свет на четыре дня (морозы, дескать). Ну, если свет начнут отключать на недели, то тогда, брат, наиболее целесообразным чтением для нас будет чтение Библии при свече. Ее, конечно, оставь и имей.

Будем ждать невредных и дешевых планшетов для чтения электронных книг, а пока надо создать базу книг. Следует иметь в виду, что на Западе подобных библиотек нет — там буржуйские авторские права хапуг соблюдаются строго. И в России мечтают сделать подобное. Учитывая то, что ныне российские буржуи начали потихоньку отнимать у народа розданную ранее советскую собственность (повышая налоги на имущество, плату за квартиру и т.п.), то вполне возможно, что скоро всё начнут прикрывать, и держатели электронных библиотек будут вынуждены их закрыть. Глянь, кстати, на эту тему http://www.iis.ru/el-bib/2001/200101/vislii/vislii.ru.html. Следует ловить момент и собирать все ныне: живем, друг, как на вулкане, который запалили некие паразиты.

Казалось бы, базы электронных версий огромны (у одного Машкова десятки тысяч). Казалось бы, библиотек много. Масса мастеров OCR давно сканирует книги, забрасывая их в сеть. Однако вышеуказанная задача по созданию действительно того, что надо, не решена, на мой взгляд, и на треть.

Вот увидел в сети нужную тебе давно знакомую книгу, обрадовался, выкачал. Начал читать: сплошные опечатки, недоработки, неправильное разбиение на абзацы и т.п. Даже отсутствие фрагментов. Конечно, если это какой-нибудь вшивый современных детектив или «фэнтэзи», которые предназначены для чтения в сортире, то и пёс с ними. Но тебе-то надо серьезные книги, тебе-то надо, чтобы они были аутентичны по тексту, чтобы вместе с тобой перейти в вечность. Хорошо, если ты пока не утерял в гнусных современных условиях книжный вариант ( и если он у тебя есть вообще). Тогда ты можешь его взять и, тщательно сверяя, поправить версию. Работа, конечно, немалая, но она делается один раз и того стоит.

Не жалей, друг, труда на то, что делается один раз и окончательно. Помни, что ничто так не постоянно, как временное. Закинешь в сеть недоработанную тобой версию, и многие, инкрустировав твои вопиющие недочеты яхонтами и изумрудами на своих Web-страничках, раскрасив все яркими красками, гордо выложат ее в своих библиотеках. А отвечать перед Господом будешь в первую очередь ты.

Имей в виду, мастер OCR, что, посылая электронную версию какой-нибудь значимой и несиюминутной книги, ты имеешь шанс оставить после себя нечто вечное. И это даже важнее, чем написать несколько десятков статей в какие-нибудь специальные журналы (их прочтет всего несколько десятков специалистов, а потом они устареют). Важнее, чем написать какую-нибудь монографию (исключение — история, философия, социология (отчасти) и религия). Получается, братец, так, что любой из малых сих, любой молодой и начинающий жизнь человек может оставить для людей после себя большее, чем некий проработавший всю жизнь маститый профессор или там академик. Парадоксально, но это так.

Имеется, однако, одно требование. Электронная версия должна быть не менее точной, чем книжный вариант времен СССР. Почему «времен СССР»? А потому, что тогда очень строго подходили к корректуре и опечаток практически не допускали (одна-две на толстенный том). Ныне же печатают как Бог на душу положит.

Мне странно видеть, как мастера OCR, затрачивая невероятно много времени на сканирование и на свое, пусть даже неудовлетворительное, считывание, не могут выпустить версии без ошибок. Всего-то требуется еще немного потрудиться. И раз считай, и два считай. Не гонись за количеством сканированных книг: сделай немного, но окончательно. Сделай так, чтобы тебе «не было мучительно стыдно за бесцельно прожитые годы». А то, друг, такие, например, как я, не скажут тебе «спасибо», выкачав твою версию.

Вот взял я, например, «Ходжу Насреддина» Л. Соловьева. В середине текста какие-то обрывки, опечаток масса, абзацы хромают. Множество «крышек» (огрехи OCR). За каким хреном, спрашивается, надо было сканировать столь замечательную книгу, если мастер OCR ее только загадил?

Поэтому я с опаской отношусь к электронным версиям классических произведений: там важна буквально каждая запятая, каждый абзац. И нет уверенности в том, что мастер OCR считал все абсолютно точно. Но ты, если уж «делаешь» классику, изволь считывать до каждой точки и запятой. И укажи об этом в своей версии: «Я, такой-то, дескать, считал текст так внимательно, как только мог, я, дескать ручаюсь...» и т.д. Даже если у тебя псевдоним, все равно, при написании этих строк ты почувствуешь, как внутри тебя зашевелилась совесть и давит на твое чувство ответственности.

В идеале для считывания нужны два человека: один читает книгу, называя запятые, точки и т.п., а другой смотрит на экран и проверяет. Хорошо делать подобное семьями, но, думаю, никто не имеет такой возможности. Супруга (или супруг) немедленно скажет: «А пошел ты... Глупостями еще заниматься». И вряд ли поймет она(он) что это — возможность оставить после себя что-то значимое.

Наверное, так делать могут только монахи-компьютерщики в монастырях. Однако и они не достигают идеала. Вот, например, текст Библии. Этот текст из светских библиотек ты можешь использовать только для ознакомления. Не вздумай цитировать и даже ссылаться на стихи внутри глав. Очень много несовпадений с синодальным переводом, который является каноническим (в книгах Библии издатели проверяют каждую запятую, и ошибок там нет). Взял я Библию с православного сайта. Но — единого текста нет, а только в виде Web-страничек. Найти какую-нибудь цитату, если точно не знаешь название книги, где она присутствует, почти невозможно (на каждую главу внутри каждой книги — своя Web-страничка).

Единый текст Библии есть, однако на светских сайтах. Взял, смотрел — ошибок много. Но и на православных сайтах в тексте монахи (наверное, они) тоже, порой, пропустят запятую-другую или же вместо точки с запятой оставят запятую, которую ошибочно раcпознал их OCR. Непорядок.

Заканчиваю вводную часть. Мой призыв остается прежним:

ВЫКЛАДЫВАЙ ЭЛЕКТРОННУЮ ВЕРСИЮ ТОЛЬКО В ОКОНЧАТЕЛЬНОМ ВАРИАНТЕ. ПРОВЕРЯЙ ЕЕ КАК МОЖНО ТЩАТЕЛЬНЕЕ, НЕ ЖАЛЕЯ ВРЕМЕНИ И ТРУДА. ИНАЧЕ НА ТОМ СВЕТЕ МОЖЕШЬ ПОЖАЛЕТЬ. УКАЖИ, ЧТО СЧИТАЛ ТАК ХОРОШО, КАК ТОЛЬКО ТЫ СПОСОБЕН (БУДЬ СЕБЕ САМЫМ СТРОГИМ СУДЬЕЙ).

А чтобы тебе было легче все это сделать, я и создал данное методическое руководство. Оно, конечно, весьма сложно, но и подготовка версии без ошибок также сложна.
О ПРЕДСТАВЛЕННОМ МЕТОДИЧЕСКОМ РУКОВОДСТВЕ
Сканирую с 1997 г. Сначала — ручным сканером. Ручной сканер незаменим для газет: если накрыть газету стеклом, то он позволяет сразу взять колонку длиной сантиметров шестьдесят и более. При навыке ошибок не больше, чем у планшетного. Ныне ручные сканеры уже не выпускают (а зря). Но можно купить с рук за $12–15.

Теперь же имею еще весьма простой планшетный “Mustek 1200 CP”. Работал и на других (налаживал разным людям), более сложных. И скажу, что “Mustek 1200 CP” вполне годится и ничем не отличается, если не сканировать фотографии или что-нибудь уж очень цветное (не делаю такого).

В результате накопился целый ряд навыков и сформировался определенный методический подход. Я посчитал полезным поделиться всем этим, хотя получилось и многовато.

Представленное методическое руководство написано, конечно, весьма эклектично и сумбурно; оно плохо систематизировано. Но таково большинство руководств по Windows и Word. Слишком многое там цепляется друг за друга, слишком много замкнутых функциональных циклов. И одно из другого вытекает отнюдь не всегда. Поэтому трудно систематизировать. Так и в моем руководстве: ты найдешь в нем все, что нужно (так я думаю), однако одно из другого вряд ли вылезет четко. Ведь все это — отдельные факты, отдельные приемы работы. Поэтому работай над усвоением моих методик: читай внимательно, вытаскивай, что необходимо, выделяй или подчеркивай; составляй краткий конспект наиболее нужного. Когда же начнешь работать со своим текстом — включай «Поиск», если хочешь что-то найти в моем руководстве.

Поработаешь над текстом руководства — лучше усвоишь.

Вспоминается средневековый учебник по химии. Тогда эта дисциплина представляла собой просто набор фактов и ремесленных навыков. Не была она систематизирована. И учебник начинался просто: с рецептов дубления кож. И все их надо было запомнить, и все их надо было усвоить. И запоминали, и усваивали. Пусть и с тобой будет так.

Еще структура данного методического руководства весьма напоминает мне труд монахов-инквизиторов Я. Шпренгера и Г. Инститориса «Молот ведьм» (1487 г.). Очень похожа рубрикация. Ну да ладно.

ЧАСТЬ ПЕРВАЯ

Что такое «аккуратное форматирование»

ЧТО ТАКОЕ КОРРЕКТНОЕ И ЕДИНООБРАЗНОЕ

ПРЕДСТАВЛЕНИЕ ТЕКСТА
АВЕНТЮРА I

ПРЕДВАРИТЕЛЬНАЯ

ВСЯКИЕ ПРОЦЕДУРЫ С ДОКУМЕНТАМИ Word СЛЕДУЕТ ПРОИЗВОДИТЬ ПРИ ВКЛЮЧЕННОЙ КНОПКЕ "НЕПЕЧАТАЕМЫЕ СИМВОЛЫ". И писать, и читать (чтобы привыкать). МЕТОДИЧЕСКОЕ РУКОВОДСТВО НЕ БУДЕТ ПОНЯТНО ПРИ ВЫКЛЮЧЕНИИ ДАННОЙ КНОПКИ.

Это — необходимое требование. Я почти 20 лет печатал на пишущей машинке и, поэтому, когда начинал писать в Word, то непечатаемые символы (основные — знак абзаца и пробела) мне мешали. Вначале я их выключал, а всякие отступы делал просто пробелом (как на машинке). На другую страницу, если предыдущая занимала не весь лист, переходил с помощью лишних строк (Enter за Enter'ом). За количеством пробелов не следил вовсе. Но спасибо братцу, который дал мне по рукам в первый же месяц, строго указав, что компьютер — не пишущая машинка. И я перестал выключать кнопку "Непечатаемые символы", привык к ней и ныне не воспринимаю текст без знаков абзаца и пробела. Многие, очень многие, как я вижу по разным учреждениям, так не делают. И из года в год, выключая непечатаемые символы, портят документы и усугубляют себе жизнь. Так привыкают, что и отучаться не хотят.

ЕСЛИ И С ТОБОЙ ТАК, СОВЕТУЮ ОТУЧАТЬСЯ НЕМЕДЛЕННО.

Привыкай к хорошенькому. Пусть символы абзаца и пробела станут тебе столь же близкими, как собственные руки. Зачем они — увидишь ниже.
РАБОТАТЬ В ДОКУМЕНТОМ ЛУЧШЕ В РЕЖИМЕ «ОБЫЧНЫЙ» (или меню «Вид», или самая левая кнопка снизу). Тогда сокращается время просмотра: Word'у не надо листать документ. Это важно, когда текста 100–200 страниц, а память у компьютера (в том числе видеопамять) невелика. На заключительном этапе, когда документ готов, можно разбить его на страницы и вставить их нумерацию (ЖЕЛАТЕЛЬНО СВЕРХУ: если кто-то захочет печатать, то нижнюю нумерацию некоторые принтеры могут не взять). При желании — и колонтитул. Правда, захребетники — составители ГОСТов, в 2002 г. заменили верхнюю нумерацию страниц на нижнюю. Чтобы жизнь была краше (об этих захребетниках мы еще поговорим).
ВКЛЮЧИ ПРОВЕРКУ ОРФОГРАФИИ ПО МАКСИМУМУ:

«Сервис» — «Параметры» — «Правописание». Смотри, чтобы не стоял флажок ни на «Пропускать слова из прописных букв», ни «Пропускать слова с цифрами». Эти функции тебе понадобятся, когда считываешь после OCR (часто там вместо букв сходные цифры — не буква зэ (З), а цифра три (3) и т.п.).

Выдели весь текст и установи «Сервис» — «Язык» — «Русский». Иначе у тебя будут отсутствовать переносы слов (если русский текст пойдет без проверки или как английский).

Помни, что переносы устанавливаются с Microsoft Office в комплекте с Word. Не устанавливай там никакой "тезаурус" (не надо), но обязательно залезь и установи переносы. Я видел, как часто забывали это сделать, а потом кусали локти, ибо не имели собственного установочного CD. Ты не сможешь без оригинального CD: «Установка и удаление программ» — “MS Office” — «Добавить / Удалить».

Кстати, когда в тексте имеется фрагмент на каком-нибудь ином языке (скажем, немецком), то ты можешь зреть при открытии документа возникающее в середине малое окошко в котором отражена следующая жалоба «Не могу найти (далее два квадрата) для языка (один квадрат)». Это Word не может найти установку переносов для того экзотического языка (в данном случае — немецкого), который ее предусматривает (ведь немецкие переносы мы не устанавливали). В английском переносов нет.

И если ты забудешь поставить программу русских переносов, то Word доймет тебя своим окошечком с жалобой.

«Проверка орфографии» ставится в комплекте MS Office.

«Проверкой грамматики» я ранее никогда не пользовался (некорректная она, а зеленые подчеркивания захламляют). Но когда правишь результаты OCR, то, может быть, она и целесообразна: часты ошибки типа вместо «но» «по». Увидеть их трудно, слова нормальные (орфография не подчеркивает), и тут, возможно, грамматика как раз и поможет. Впрочем, у меня кривая программа установки MS Office 97, о чем я узнал только сейчас (использую ее пять лет), когда захотел попробовать грамматику (повреждена какая-то библиотека). Испытай грамматику после OCR сам.
  1   2   3

Похожие:

Методическое руководство как корректно и единообразно представить текст *. doc Как преобразовать *. txt в аккуратный *doc iconИнструкция по монтажу панелей марок псб и пкб doc Мдс 12-49. 2009...
Рд-10-33-93 Стропы грузовые. Требования к устройству и безопасной эксплуатации doc

Методическое руководство как корректно и единообразно представить текст *. doc Как преобразовать *. txt в аккуратный *doc iconИнструкция по монтажу панелей марок псб и пкб doc Мдс 12-49. 2009...
Рд-10-33-93 Стропы грузовые. Требования к устройству и безопасной эксплуатации doc

Методическое руководство как корректно и единообразно представить текст *. doc Как преобразовать *. txt в аккуратный *doc iconРуководство пользователя Тифлоплеер Smart Bee
Поддержка текстовых файлов в форматах txt, htm, html, mht, doc, docx, epub, pdf и т д

Методическое руководство как корректно и единообразно представить текст *. doc Как преобразовать *. txt в аккуратный *doc iconВсн-604-iii-87 Техника безопасности линейно-кабельных сооружений doc
Рп пр. Москвы №2260-рп о мерах по обеспечению безопасности труда на объектах строительства doc

Методическое руководство как корректно и единообразно представить текст *. doc Как преобразовать *. txt в аккуратный *doc iconДеятельность человека, как экологический фактор doc
Любой материал, высылается по электронной почте, бесплатно, заказ на

Методическое руководство как корректно и единообразно представить текст *. doc Как преобразовать *. txt в аккуратный *doc iconПолучение сертификата аутентификации и шифрования для средства криптографической...
Ент-ап производится либо администратору информационной безопасности (далее – аиб), назначенному распорядительным документом (Приказ...

Методическое руководство как корректно и единообразно представить текст *. doc Как преобразовать *. txt в аккуратный *doc iconРуководство по стандартной атмосфере икао. Doc. 7488/3, 1993г. Бланк аэрологической диаграммы
Авиационная метеорология: Практические занятия. Задания по дисциплине и методические указания по их выполнению / спб гуга

Методическое руководство как корректно и единообразно представить текст *. doc Как преобразовать *. txt в аккуратный *doc icon10 аргументов о недостатках и преимуществах платных файлов doc

Методическое руководство как корректно и единообразно представить текст *. doc Как преобразовать *. txt в аккуратный *doc iconEvaluation Warning: The document was created with Spire. Doc for. Net

Методическое руководство как корректно и единообразно представить текст *. doc Как преобразовать *. txt в аккуратный *doc iconБ анк’c Софт Системс
Примечание: Процедура инсталляции клиентского арм подробно описана в документе Руководство по установке клиентского арм (ic install...

Методическое руководство как корректно и единообразно представить текст *. doc Как преобразовать *. txt в аккуратный *doc iconРуководство пользователя Авторефракератометр prk 6000
Прибор может работать не корректно, вследствие влияния на него источников радиопомех, таких, как мобильные телефоны, радиоуправляемые...

Методическое руководство как корректно и единообразно представить текст *. doc Как преобразовать *. txt в аккуратный *doc iconИстория развития носителей информации
В настоящее время сложно представить, как обойтись без различного вида носителей информации для хранения музыки, фильмов, фотографий...

Методическое руководство как корректно и единообразно представить текст *. doc Как преобразовать *. txt в аккуратный *doc icon«Как преобразовать школьную библиотеку в информационно-библиотечный...
Гау дпо рк «Карельский институт развития образования» (ул. Правды, 31) – актовый зал, 3 этаж

Методическое руководство как корректно и единообразно представить текст *. doc Как преобразовать *. txt в аккуратный *doc iconКраткая инструкция
В электронном виде форма предоставления информации находится на сайте map. Ncpti. Ru. (формат doc)

Методическое руководство как корректно и единообразно представить текст *. doc Как преобразовать *. txt в аккуратный *doc iconРуководство икао по предотвращению авиационных происшествий (doc...
Если бы авиаторы учились на ошибках других, авиационных происшествий было бы меньше

Методическое руководство как корректно и единообразно представить текст *. doc Как преобразовать *. txt в аккуратный *doc iconТехническое задание (далее тз) подготавливается в виде электронного...
Техническое задание (далее – тз) подготавливается в виде электронного документа в текстовом формате (form 2 tz doc) по приведенной...


Руководство, инструкция по применению






При копировании материала укажите ссылку © 2018
контакты
rykovodstvo.ru
Поиск