Софт-Портал

Cuneiform что это за программа

Рейтинг: 4.0/5.0 (739 проголосовавших)

Категория: Windows

Описание

Cuneiform - скачать программу для windows 7 и 8 для распознавания текста бесплатно

Полная версия сайта

CuneiForm

Программа CuneiForm имеет уникальную способность, распознавать оптическим методом любую документацию. Она свободно преобразует для удобного редактирования все электронные носители документов и файлы с графикой. В результате преобразования размеры шрифта, а также основная структура документации не изменяется.

Данная программа обладает такими уникальными характеристиками, которые разрешают обрабатывать одиночную, а также пакетную документацию при необходимости и делает это лучше своих прямых конкурентов.

Все обработанные документы с помощью системы Cognitive Forms, далее свободно редактируются в специальных программах для редактирования или же в обычных офисных приложениях по типу майкрософт ворд или опен оффис.

Еще в данной программе имеется возможность их сохранения в самых распространенных форматах и позволяет вести удобный поиск по ним. Система распознавания текста тщательно анализирует вставленный документ и просто распознает в нем различные таблицы, изображения графики и блоки плохо читаемых текстов.

Скачать русскую версию программы CuneiForm легко и просто, а главное это бесплатно.


Возможности программы для распознавания текста CuneiForm просто уникальны. Она способна распознавать самые сложные таблицы и шрифты. Даже непонятный шрифт, распечатанного текста пишущей машинки или лазерного принтера, программа CuneiForm распознает с минимумов ошибок. А благодаря встроенным алгоритмам, система видит некачественный текст ксерокопий и факсов. Поэтому работа с такой программой принесет только пользу и удобство, особенно если время для распознавания ограничено. CuneiForm распознает двадцать языков мира, что просто отлично.

Cuneiform что это за программа:

  • скачать
  • скачать
  • Другие статьи, обзоры программ, новости

    CuneiForm cкачать бесплатно последнюю версию

    CuneiForm

    OCR CuneiForm является признанным лидером по продажам на мировом рынке. Эта компьютерная программа создана русской фирмой Cognitive Technologies для того, чтобы проводить мгновенное и оптимальное сканирование и распознавание документов (то есть распечатку и ксерокопию) в текст.

    Принципы работы CuneiForm Для качественного распознавания текста с распечаток различных отсканированных листов, утилита применяет ряд специальных алгоритмов OCR – Optical Character Recognition. Эти алгоритмы способны быстро и качественно определять текущий язык, шрифты и прочую информацию.

    Для документов со сложной структурой, которые содержат: таблицы и текст, рисунки либо изображения плохого качества, всё куда сложнее. Лучше всего применять ручную фрагментацию для Windows 7. Данную возможность можно активировать при выполнении следующих действий: “Получить изображение” > “Разметка” > “Отредактировать изображение” > “Распознавание”.

    Скачать бесплатно программу CuneiForm вы можете на нашем сайте.

    Видеообзор Возможности КунейФорм Возможность экспорта и импорта во множество форматов файлов, таких как: TXT и RTF, GIF и BMP.
  • Возможность поддержки локального или сетевого сканирования.
  • Выбор любых параметров для сканирования документов, что появилось, когда вышла последняя версия программы.
  • Есть автоматический режим определения расположения страниц.
  • Возможность предварительного просмотра на ПК.
  • Распознавание любых шрифтов, за исключением рукописных.
  • Распознавание любых табличных блоков и изображений.
  • Различение символов (текста, индексов и сносок, орфографических ошибок). Данная программа для Windows 8 легко распознает тексты, идущие на плохих ксерокопиях или распечатках. При этом структура текста никак не меняется.
  • Поддержка справочных материалов по работе с утилитой.
  • Для расширение функционала программы рекомендуем скачать исходные коды и дополнение для сжатия изображения.

    Ниже похожие статьи на сайте:

    CuneiForm - Программы для работы с текстом

    CuneiForm

    CuneiForm - бесплатная программа для оптического распознавания печатного текста и перевода его в формат, который можно редактировать. Программа отличается качеством распознавания текста.

    Основные характеристики программы:

    * высокое качество распознавания;
    * высокая скорость работы;
    * распознавание текстов на русском, английском, смешанном русско-английском, украинском, немецком, французском, испанском, итальянском, шведском и других (всего более 20);
    * работа в режиме автофрагментации для поиска текстовых блоков, таблиц и изображений, а также мощное средство ручной и полуавтоматической фрагментации;
    * распознавание таблиц любой структуры и сложности, в том числе и без отображения линий табличной сетки;
    * автоматическое сохранение иллюстраций (черно-белых и цветных) и таблиц в получаемом на выходе документе;
    * полное сохранение топологии страницы;
    * поддержка пакетного режима сканирования и распознавания;
    * простота использования и интуитивный интерфейс, встроенные помощники по работе с программой;
    * встроенный текстовый редактор для работы с распознанным текстом;
    * совмещенный показ изображений и результатов распознавания.

    Операционная система: Windows 98/Me, Windows NT/2000, Windows XP
    Лицензия: Open Source (Бесплатно)
    Язык: Русский, Английский

    Ошибка передачи данных при работе со сканерами HP, Epson, BENQ, Canon, Xerox, Mustek и др.


    Описание ошибки:
    Причина в особенностях работы TWAIN драйверов сканера, в CuneiForm используются 2 режима передачи memory-buffered (режим по умолчанию) и memory-native. Раньше драйвера сканера не всегда реализовали оба, или один из них был не очень стабилен. Была ситуация когда это зависело и от производителя, и от версии драйвера. Сейчас у производителей промышленных сканеров (Fujitsu, Kodak и др.) поддерживаются все режимы, а у остальных производителей видимо ситуация с режимами передачи иногда остается нестабильной.

    Лекарство:
    Необходимо отредактировать файл face.ini, который находится в директории windows. Находим в файле ключ TWAIN_TransferMode и делаем его равным memory-native. То есть должно быть TWAIN_TransferMode=memory-native

    Добавлять комментарии могут только зарегистрированные пользователи.
    [ Регистрация | Вход ]

    Внимание! Данные программы и книги собраны в свободном распространении в сети Интернет, из архивов открытого доступа. Все права на программы и книги принадлежат их авторам. Если Вы являетесь разработчиком программного обеспечения, или автором книги, представленного на данном ресурсе и считаете, что размещение каких либо файлов, нарушает Ваши авторские права, тогда свяжитесь с администрацией сайта, по E-Mail, и материалы будут убраны

    Люди все разные. Одни рождаются сильными, другие заболевают по глупости своей или родительской, по ошибке врачей или из-за игр судьбы. Но если ты болеешь, ты должен быть упрямее здорового: в диете, в тренировках, в ограничениях, в открывании форточек и окон.

    CuneiForm скачать бесплатно русская версия - распознавание текста

    Программы для Windows CuneiForm 12 - распознавание текста с картинки.

    Легко распознать текст с минимальными тратами системных ресурсов поможет программа CuneiForm. Это бесплатный инструмент, не только распознающий текст, но и конвертирующий его в удобный формат. Посредством этой компактной, но невероятно мощной программки можно распознать низкокачественные копии документов, печатные отсканированные издания, источники с множеством графических изображений. CuneiForm работает столь эффективно из-за наличия уникальных алгоритмов сканирования. CuneiForm скачать бесплатно русская версия распознавание текста с картинки.

    Имеется текстовый редактор, помогающий быстро откорректировать распознанный текст без использования дополнительного ПО. Обратите внимание, CuneiForm 12 великолепно справляется с распознаванием таблиц. Структура и форма объектов будет сохраняться в исходном виде.

    Возможна ручная, авто и полуавтоматическая фрагментация теста. Для «сложных» объектов с массой графиков, рисунков, таблиц, языков лучше использовать ручной вид фрагментации. Пользователь может увидеть результат распознавания еще перед его началом. CuneiForm – софт, подходящий для всех категорий юзеров, т.к. характеризуется бесплатным распространением и простым интерфейсом. Основной задачей программы - распознавание текста с картинки или графического документа формата PDF.

    Среди главных преимуществ CuneiForm выделим:

    • Наличие встроенного редактора;
    • Автоматическое определение расположение страниц;
    • Эффективное распознавание языков, символов, индексов, сносок и шрифтов;
    • Проверка орфографии;
    • Конвертация текста;
    • Удобный интерфейс, встроенный помощник;
    • Работа с таблицами.

    Скачать CuneiForm – получить незаменимый инструмент для высокоэффективного распознавания текстов.

    Ссылка на загрузку

    Cuneiform что это за программа

    Re: Cuneiform-Qt — графический интерфейс к Cuneiform

    > Ну что нам стоит ждать Unix Way в твоем исполнении?

    Он уже есть, так как используется вызов консольного бэкенда. Нужно будет прикрутить распознавание PDF — сделаю вызов gs с параметрами. Хотите правоверного Unix Way — используйте gs/tiffsplit/cuneiform/latex. Оно уже есть и работает. Но у этой связки недостаёт удобства для обычного пользователя.

    Re: Cuneiform-Qt — графический интерфейс к Cuneiform

    Тем, кто здесь высказывался, что "это не нужно" и "Файнридер - наше все!" должен сказать, что файнридер при всех его неоспоримых достоинствах как распознавалки крайне НЕУДОБЕН в Linux. Он никак не вписывается в традиционную конвейерную обработку: например, скрипт, который при нажатии кнопки на сканере сканирует страницу, распознает (как может) и вставляет в конец документа. С ocrad такое возможно, а с finereader - увы!

    Что касаемо морды, то наверное она кому-нибудь пригодится именно как прямая замена файнридеру, а может она подогреет интерес к cuneinform-linux и даст точок к его совершенствованию.

    Re: Cuneiform-Qt — графический интерфейс к Cuneiform

    > Ща все лучшие программы на qt пишут)

    Ололо, qt бодрым шагом бежит в сторону GNOME. Чувствую, придётся KDE'шникам переползать на fltk.

    Re: Cuneiform-Qt — графический интерфейс к Cuneiform

    > по статистике 90% всего времени занимает проверка (в сравнении с оригинальным изображением) и редактирование текста.

    Ссылку на эту статистику можно привести?

    Из своего недолгого опыта знаю, что это не так. Документ должен вычитываться — только так можно добиться хорошего результата. Даже очень развитые средства подсветки и прочие примочки не дают высокого качества результата.

    Re: Cuneiform-Qt — графический интерфейс к Cuneiform

    > по статистике 90% всего времени занимает проверка (в сравнении с оригинальным изображением) и редактирование текста.

    Ссылку на эту статистику можно привести?

    Из своего недолгого опыта знаю, что это не так. Документ должен вычитываться — только так можно добиться хорошего результата. Даже очень развитые средства подсветки и прочие примочки не дают высокого качества результата.

    Re: Cuneiform-Qt — графический интерфейс к Cuneiform

    > ВОДЫ Н3 ЖИЛОМ ДОМ

    Быстрее набить с нуля, чем такое править. В топку такой опенсорс.

    Re: Cuneiform-Qt — графический интерфейс к Cuneiform

    Автору Спасибо! (хотя мне OCR особо и не нужен, и прогу не ставил)
    EmStudio, ну вы клоун ей богу ))
    Видимо в каждом новостном треде на ЛОРе, как в цирке, должен быть свой, персональный клоун.

    > Вот что за люди? Сами палец о палец не ударили, а пришли в треде

    > посрать и в автора поплеваться. Совесть поимейте.

    > Автор делает не ради бабок, а просто так. За что ему уже большое спасибо.

    > Mikael (*) (08.04.2009 17:51:41)

    +1

    Re: Cuneiform-Qt — графический интерфейс к Cuneiform

    по поводу автоматизации

    FR имеет
    1) Batch mode и скрипты записываТь
    2) Finereader Developer - создавать приложения на движке Finereader

    автоматизируй сколько нужно!

    они FR не очень хорошо смотрели.

    Программа для распознавание текста - CuneiForm скачать бесплатно

    CuneiForm

    Приложение CuneiForm является бесплатным, но мощным инструментом по распознаванию текстов, полученных со сканера. Также эта программа умеет оптимизировать распознанный текст под самые различные форматы. CuneiForm на первый взгляд может напомнить многие аналогичные программы, однако преимуществ, именно в этой программе, хватает. Так, например, здесь реализована возможность распознавания огромного числа печатной продукции, на которой есть какой-либо текст. Это могут быть, как обычные документы, а также содержащие большое количество графических изображений полиграфические издания. Даже копии документов низкого качества данной программой будут распознаны без проблем.

    Для того чтобы приложение CuneiForm умело настолько качественно распознавать самые различные тексты, в нём используются алгоритмы собственной разработки. В этой программе также имеется встроенный текстовый редактор, который позволяет без использования дополнительных компонентов, редактировать самые разнообразные тексты. Ещё одной особенностью программы CuneiForm является умение распознавать таблицы, причём их структура, формат и метод построения списков, могут быть самыми различными.

    Ещё одним главным отличием от других подобных программ, является возможность различной фрагментации текстов, которая может работать в автоматическом режиме, но также и в полуавтоматическом или ручном. Также в данной программе имеется уникальный способ демонстрации не только начального варианта документа, но и результата, который образуется после того, как сканирование закончено.

    Приложение CuneiForm рассчитано абсолютно для всех пользователей, благодаря разработанному интерфейсу, который отличается своей простотой, удобством и функциональностью. И ещё, ко всему прочему, можно программу CuneiForm скачать бесплатно, что увеличивает интерес у абсолютно любого пользователя.

    Преимущества CuneiForm:
    • оптимизация текста в различные форматы;
    • встроенный текстовый редактор;
    • распознавание различных таблиц;
    • простой и удобный интерфейс;
    • распознавание текста со смешанными языками.

    Таким образом, получается, что приложение CuneiForm легко сможет заменить собой любую другую похожую программу, благодаря своим уникальным возможностям, которые, в свою очередь, оценят пользователи с самой различной компьютерной подготовкой.

    Распознаватель текста CuneiForm

    LiveInternet LiveInternet Распознаватель текста CuneiForm. полезняшка.

    Российская система распознавания текстов CuneiForm стала открытой. Сегодня компания-разработчик этой системы Cognitive Technologies провела пресс-мероприятие по данному поводу.

    "Компания Cognitive Technologies объявляет о запуске программы "Распознавание должно быть на каждом компьютере", о выпуске free-ware версии OCR CuneiForm и об открытии исходных кодов OCR CuneiForm", - www.cuneiform.ru
    Ну и шухер же сейчас в Рунете по этому поводу.
    На Яндексе - Результат поиска: страниц — 76 838, сайтов — не менее 1 657

    Вот уже один из отзывов:
    Скачал CuneiForm. поставил (правда под виндой), - работает. )

    Правда при сканировании через саму программу пишет ошибку при передаче файла со сканера в программу.
    Пришлось отсканировать в файлы, но далее не возникло никаких проблем. Затраты времени одинаковые.
    Русский текст распознает очень хорошо, правда качество файлов было вполне хорошее, без проблем, без сложного форматирования, без колонок и картинок. Газету потертую пока распознавать не пробовал :laugh:

    12 декабря 2007 г.

    Компания Cognitive Technologies анонсирует разработки в области Open Source. Данное направление в течение последних двух лет переживает небывалый подъем во всем мире и преимущества его очевидны:

    * любой желающий может бесплатно получить программный продукт;
    * любой желающий может доработать продукт в соответствии со своими желаниями и требованиями, благодаря тому, что коды программы открыты.

    Как свидетельствует мировой опыт развития Open Source - решений, данные условия предоставляют широкие возможности для масштабного развития программных продуктов. Пример Linux, Apache, Open Office и других продуктов не дает повода в этом усомниться.

    Кроме того, как коммерческая компания, Cognitive Technologies видит реальную выгоду от развития направления. OCR – технологии составляют незначительный сегмент ИТ-рынка, но для того, чтобы его активно развивать требуется довольно значительный производственный ресурс. Еще в 1995 году Cognitive Technologies сделал стратегическое заявление о том, что OCR-системы уже достигли промышленного качества распознавания. Дальнейшее повышение точности распознавания не является первостепенной задачей (две или четыре ошибки сделает система на пяти листах не столь принципиально). В дальнейшем они будут трансформироваться в утилиты к «большим системам». К этому, в итоге, и была сведена деятельность компании в части распознавания печатных текстов. (Наоборот, в области ICR и IDR наша компания активно занималась и занимается исследованиями и разработками, связанными с распознаванием сложных документов, форм документов, технологиями «понимания» документов и т.д.)

    Сегодня уже привычно видеть модули распознавания в системах электронного документооборота, графических и текстовых редакторах. Не секрет, что в ближайшее время возможность распознавания появится и в поисковых машинах. Стоит сказать, что за период с 2000 года никаких революционных изменений в технологиях OCR не произошло. Развитие данных систем шло, главным образом, по пути совершенствования их сервисной стороны и расширения списка дополнительных возможностей (распознавание новых языков и т.д.) (Отметим, что в этот период времени серьезные результаты были получены в сферах forms processing и «понимания» документов).

    Весь период разработки OCR CuneiForm, по оценке Cognitive Technologies, составил порядка 470 человеко-лет.

    Наш опыт в проектах Open Source

    Таким образом, по мнению Cognitive Technologies подключение ресурса «сообщества» в разработки в сфере OCR под руководством ученых-консультантов и менеджеров Cognitive Technologies должно принести значимый эффект. Отметим, что Cognitive Technologies уже имеет значительный научно-производственный опыт работ по направлению Open Source. В течение двух последних лет компания является исполнителем проекта ФЦП «Электронная Россия» по созданию Open Source-решений для органов государственной власти России. Кроме того, несколько месяцев назад Cognitive Technologies начала Open Source проект по распознаванию марок автомобилей, который реализуется с участием студенческого сообщества под эгидой кафедры Когнитивных Технологий, открытой Cognitive Technologies в МФТИ. Результаты по данному проекту планируется получить к 2010 году.

    Open Source-проект «OCR CuneiForm» - научный проект Cognitive Technologies

    Необходимо отметить, что для компании Cognitive Technologies, в которой научные исследования занимают значительную долю деятельности, Open Source проект OCR CuneiForm представляет огромный научно-практический интерес. Компания предполагает получить комплекс идей и методов, который сможет значительно усилить данную систему и получить в ближайшее время ряд «прорывных» технологических решений.

    Рынок свободного ПО

    Объем мирового рынка свободного ПО, по данным аналитической компании Saugatuck Technology, к 2010 году составит $22 млрд. при ежегодном росте в 30%. По данным исследовательского центра "Финам", рынок свободного ПО в России составляет сегодня $40 млн. К 2010 году эта цифра достигнет $200 млн.

    Доля Cognitive Technologies к 2010 году может составить 5-7% за счет оказания услуг, технической поддержки и рекламы.

    Программа «Распознавание должно быть на каждом компьютере»

    Предполагается, что одним из основных результатов Open Source - проекта OCR CuneiForm должен стать рост популярности и распространенности решений в области распознавания печатных текстов благодаря открытости кода и нулевой стоимости ПО. Системы распознавания должны стать общедоступными!

    По данным Cognitive Technologies число активных пользователей систем распознавания (те, кто используют OCR не реже 1 раза в месяц) за счет использования Open Source к 2010 году может возрасти в 5 раз, во многом за счет активного подключения к использованию OCR офисных сотрудников, учащихся школ, студентов вузов, а также государственных структур, для которых бесплатное ПО станет хорошей альтернативой пиратским продуктам.

    Таким образом, число пользователей OCR к этому периоду времени может составить порядка 25 млн. человек. (Сегодня это число составляет порядка 5 млн. чел.)

    Компания Cognitive Technologies планирует развивать проект в три этапа:

    1. OCR Cuneiform - программa Freeware

    12 декабря 2007 года OCR CuneiForm станет доступной для широкого использования (freeware). Полную версию системы можно будет скачать с сайта Cognitive Technologies www.cognitive.ru. а также с тематических ресурсов www.download.ru. www.freeware.ru и т.д.

    2. Подготовка web-сервиса

    В рамках данного этапа будет подготовлен Интернет-ресурс www.Cueiform.ru. Любой желающий сможет бесплатно распознать документы в on-line.

    Сроки: конец января 2008 г.

    Компания Cognitive Technologies планирует довести число распознаваний на www.Cuneiform.ru до 10 000 в день к концу 2008 г.

    3. Подготовка и размещение исходных кодов OCR Cuneiform

    Сроки: март 2008 г.

    С начала марта 2008 года Cognitive Technologies в качестве инвестора и координатора планирует начать работы по подготовке новой версии OCR CuneiForm с участием широких слоев компьютерного «сообщества».

    OCR CuneiForm теперь free-ware. Загрузить систему OCR CuneiForm V.12.

    Заявки на участие в Open Source проекте можно отправлять на cuneiform@cognitive.ru .

    На сайте запущен форум для координации работы над проектом Open Source .

    Информация об OCR CuneiForm:

    OCR CuneiForm может распознавать любые полиграфические, машинописные гарнитуры всех начертаний и шрифты, получаемые с принтеров за исключением декоративных и рукописных. В систему встроены специальные алгоритмы для распознавания текста с матричного принтера, плохих ксерокопий факсов и машинописи.

    OCR CuneiForm это:

    * высокое качество распознавания;
    * высокая скорость работы;
    * распознавание текстов на русском, английском, смешанном русско-английском, украинском, немецком, французском, испанском, итальянском, шведском и других (всего более 20);
    * работа в режиме автофрагментации для поиска текстовых блоков, таблиц и изображений, а также мощное средство ручной и полуавтоматической фрагментации;
    * распознавание таблиц любой структуры и сложности, в том числе и без отображения линий табличной сетки;
    * автоматическое сохранение иллюстраций (черно-белых и цветных) и таблиц в получаемом на выходе документе;
    * полное сохранение топологии страницы;
    * поддержка пакетного режима сканирования и распознавания;
    * простота использования и интуитивный интерфейс, встроенные помощники по работе с программой;
    * встроенный текстовый редактор для работы с распознанным текстом;
    * совмещенный показ изображений и результатов распознавания.

    В системе используется целый ряд уникальных технологий, среди которых адаптивное распознавание, нейронные сети, когнитивный анализ альтернатив распознавания и другие.

    Cuneiform что это за программа

    Обсуждения

    CuneiForm - шрифтонезависимая (OmniFont) система. Алгоритмы, заложенные в CuneiForm, исходят из правил написания букв, из их топологии, и не требуют задания каких-либо эталонов, или обучения.

    OCR CuneiForm использует новейшую технологию интеллектуального самообучения на базе адаптивного распознавания символов. Распознаются любые печатные шрифты - книги, газеты, журналы, распечатки с лазерных и матричных принтеров, тексты с пишущих машинок и т.п.

    Система оптического распознавания текста CuneiForm - это:
    * современный интерфейс, поддерживающий все элементы интерфейса 32-разрядных приложений, такие как OLE, drag & drop, выпадающие контекстные меню, контекстная помощь;
    * высочайшее качество распознавания;
    * высокая скорость работы;
    * простота использования и интуитивный интерфейс, встроенные помошники по работе с программой;
    * мощный встроенный текстовый редактор для работы с распознанным текстом;
    * поддержка более 20 основных языков распознавания;
    * распознавание таблиц любой структуры и сложности;
    * автоматическое сохранение иллюстраций (черно-белых и цветных) и таблиц в получаемом на выходе документе;
    * поддержка всех TWAIN-совместимых сканеров;
    * использование уникальных технологий, таких как адаптивное распознавание, нейронные сети, когнитивный анализ альтернатив распознавания и другие;
    * функциональное наполнение, наличие многих дополнительных возможностей;
    * учет пожеланий пользователей предыдущих версий.

    CuneiForm — шрифтонезависимая система и способна распознавать любые шрифты (за исключением декоративных).

    В CuneiForm используются самообучающиеся алгоритмы. Система независимо от пользователя способна обучаться в процессе распознавания. Это позволяет значительно увеличить точность распознавания. Еще одним отличительным свойством CuneiForm является наличие «экспертной системы» внутри ядра, которая в зависимости от качества и структуры документа позволяет выбирать оптимальный алгоритм распознавания.

    Особенности работы с результатом распознавания

    В CuneiForm результат распознавания помещается во встроенный текстовый редактор, в котором можно удобно перемещаться по «сомнительным» словам. Проверка сомнительных слов в ReadIris осуществляется в том же окне, что и обучение шрифту: появляется отдельное окно, в котором показывается сомнительное слово, и предлагается посимвольно проверить, правильно ли система его понимает. Если вы не хотите заниматься обучением системы, то вам не удастся и просмотреть сомнительные слова.

    При распознавании с помощью CuneiForm сохраняется структура документа и его форматирование.

    Программа распознает таблицы любой структуры и сложности, в том числе и без отображения линий табличной сетки.

    Распознаются любые печатные шрифты: книги, газеты, журналы, распечатки с лазерных и матричных принтеров, тексты с пишущих машинок и т.п.

    Алгоритмы оптического распознавания (OCR, Optical Character Recognition), встроенные в программу позволяют распознавать текст с матричного принтера, плохих ксерокопий и факсов.

    Распознавание документов более чем на 20 языках: на русском, английском, немецком, французском, испанском, итальянском, шведском, украинском и других.

    Для повышения качества распознавания в программе используется словарная проверка. При этом стандартный словарь можно расширить за счет импорта новых слов из текстовых файлов.

    Copyright (c) 1993-2010, Cognitive Technologies
    All rights reserved.

    Разрешается повторное распространение и использование как в виде исходного кода, так и в двоичной форме, с изменениями или без, при соблюдении следующих условий:

    При повторном распространении исходного кода должны оставаться указанное выше уведомление об авторском праве, этот список условий и последующий отказ от гарантий.
    При повторном распространении двоичного кода в документации и/или в других материалах, поставляемых при распространении, должны сохраняться указанная выше информация об авторском праве, этот список условий и последующий отказ от гарантий.
    Ни название Cognitive Technologies, ни имена ее сотрудников не могут быть использованы в качестве средства поддержки и/или продвижения продуктов, основанных на этом ПО, без предварительного письменного разрешения.
    ЭТА ПРОГРАММА ПРЕДОСТАВЛЕНА ВЛАДЕЛЬЦАМИ АВТОРСКИХ ПРАВ И/ИЛИ ДРУГИМИ ЛИЦАМИ "КАК ОНА ЕСТЬ" БЕЗ КАКОГО-ЛИБО ВИДА ГАРАНТИЙ, ВЫРАЖЕННЫХ ЯВНО ИЛИ ПОДРАЗУМЕВАЕМЫХ, ВКЛЮЧАЯ ГАРАНТИИ КОММЕРЧЕСКОЙ ЦЕННОСТИ И ПРИГОДНОСТИ ДЛЯ КОНКРЕТНОЙ ЦЕЛИ, НО НЕ ОГРАНИЧИВАЯСЬ ИМИ. НИ ВЛАДЕЛЕЦ АВТОРСКИХ ПРАВ И НИ ОДНО ДРУГОЕ ЛИЦО, КОТОРОЕ МОЖЕТ ИЗМЕНЯТЬ И/ИЛИ ПОВТОРНО РАСПРОСТРАНЯТЬ ПРОГРАММУ, НИ В КОЕМ СЛУЧАЕ НЕ НЕСЁТ ОТВЕТСТВЕННОСТИ, ВКЛЮЧАЯ ЛЮБЫЕ ОБЩИЕ, СЛУЧАЙНЫЕ, СПЕЦИАЛЬНЫЕ ИЛИ ПОСЛЕДОВАВШИЕ УБЫТКИ, СВЯЗАННЫЕ С ИСПОЛЬЗОВАНИЕМ ИЛИ ПОНЕСЕННЫЕ ВСЛЕДСТВИЕ НЕВОЗМОЖНОСТИ ИСПОЛЬЗОВАНИЯ ПРОГРАММЫ (ВКЛЮЧАЯ ПОТЕРИ ДАННЫХ, ИЛИ ДАННЫЕ, СТАВШИЕ НЕГОДНЫМИ, ИЛИ УБЫТКИ И/ИЛИ ПОТЕРИ ДОХОДОВ, ПОНЕСЕННЫЕ ИЗ-ЗА ДЕЙСТВИЙ ТРЕТЬИХ ЛИЦ И/ИЛИ ОТКАЗА ПРОГРАММЫ РАБОТАТЬ СОВМЕСТНО С ДРУГИМИ ПРОГРАММАМИ, НО НЕ ОГРАНИЧИВАЯСЬ ЭТИМИ СЛУЧАЯМИ), НО НЕ ОГРАНИЧИВАЯСЬ ИМИ, ДАЖЕ ЕСЛИ ТАКОЙ ВЛАДЕЛЕЦ ИЛИ ДРУГОЕ ЛИЦО БЫЛИ ИЗВЕЩЕНЫ О ВОЗМОЖНОСТИ ТАКИХ УБЫТКОВ И ПОТЕРЬ.

    Насколько я понимаю ситуацию, вы всё неправильно понимаете Код состоит из двух больших компонентов - Puma и Tiger. Puma - это логика ядра распознавания (т.е. по вашему должно быть набор функций из *.dll-файла), а Tiger - OLE/COM сервер или что-то в этом духе (я работаю под Unix, поэтому в этих штуках не разбираюсь, и не представляю, что такое COM-сервер и чем оно отличается от OLE, просто там в исходниках эти слова мелькают), т.е. какая-то надстройка над этими *.dll, которая более высокоуровневая.

    Puma.NET is an open source OCR SDK project for Microsoft Windows platform available under BSD license. The project is oriented on software developers working with Microsoft.NET Framework and is aimed to provided newly developed applications with OCR capabilities. Puma.NET is a wrapper for CuneiForm.

    Уроки машинного чтения от Cognitive Technologies

    Работает система по принципу <одной кнопки>. Это означает, что при нажатии кнопки <Сканируй и Рас-познавай> запускается весь про-цесс обработки документа: скани-рование, фрагментация страницы на текстовые и графические блоки, рас-познавание текста, проверка орфо-графии и формирование выходного файла. Но что за всем этим стоит? Интеллектуальный алгоритм по-зволяет автоматически подобрать оптимальный уровень яркости ска-нера (адаптивное сканирование) в зависимости от фона документа, со-хранить иллюстрации (или, в зави-симости от решаемой задачи, уда-лить ненужные графические элементы для максимального сокращения последующего редактирования).
    В CuneiForm используется несколько методов подобного сопоставления. Во-первых, образ каждого символа раскладывается на отдельные элементы - события. К примеру, событием является фрагмент от одной линии пересечения до другой. Совокупность событий представляет собой компактное описание символа.
    Другие методы основаны на соотношении <масс> отдельных элементов символов и описании их характерных признаков(закругления, прямые, углы и т. д.). По каждому из этих описаний существуют базы данных, в которых находятся соответствующие эталоны. Поступающий на обработку элемент изображения сравнивается с эталоном. А затем на основании этого сравнения решающая функция выносит вердикт о соответствии изображения конкретному символу. Кроме того, существуют алгоритмы, которые позволяют работать с текстами низкого качества. Так, для разрезания <склеенных> символов существует метод оценки оптимальных разбиений. И наоборот, для соединения "рассыпаных" элементов разработан механизм их соединения.
    В CuneiForm'96 мы впервые применили алгоритмы самообучения (или адаптивного распознавания). Принцип их работы состоит в следующем. В каждом тексте присутствуют чет-ко и нечетко пропечатанные симво-лы. Если после того как система распознала текст (как это делает обычная система, например пре-дыдущая версия OCR CuneiForm 2.95), выясняется, что точность ока-залась ниже пороговой, произво-дится дораспознавание текста на основе шрифта, который генерируется системой по хорошо пропеча-танным символам. Здесь разработ-чики соединили достоинства двух типов систем распознавания: омни-и мультишрифтовые. Напомним, что первые позволяют распознавать любые шрифты без дополнитель-ного обучения, вторые же более устойчивы при распознавании низ-кокачественных текстов. Результаты применения Cunei-Form'96 показали, что использова-ние самообучающихся алгоритмов позволяет поднять точность распо-знавания низкокачественных текстов в четыре-пять раз! Но главное, по-жалуй, в том, что самообучающие-ся системы обладают гораздо боль-шим потенциалом повышения точности распознавания.

    Важную роль играют методы словарного и синтаксического распознавания и, по сути, служат мощным средством поддержки геометрического распознавания. Но для их эффективного использования необходимо было решить две важные задачи. Во-первых, реализовать быстрый доступ к большому (порядка 100000 слов) словарю. В результате удалось построить систему хранения слов, где на хранение каждого слова уходило не более одного байта, а доступ осуществлялся за минимальное время. С другой стороны, потребовалось построить систему коррекции результатов распознавания, ориентированную на альтернативность событий (подобно системе проверки орфографии). Сама по себе альтернативность результатов распознавания очевидна и обусловлена хранением коллекций букв вместе с <оценками соответствия>. А словарный контроль позволял изменять эти оценки, используя словарную базу. В итоге применение словаря позволило реализовать схему дораспознавания символов.
    Сегодня наряду с задачами повышения точности распознавания на передний план выходят вопросы расширения сфер применения OCR-технологий, соединения технологий распознавания с архивными системами. Иными словами, мы переходим от монопрограммы, выполняющей функции ввода текста, к автоматизированным комплексам, решающим задачи клиента в области документооборота. Вот уже около полугода CuneiForm поставляется в комплекте с сервером распознавания CuneiForm OCR Server, предназначенным для коллективного ввода данных в организациях, а электронный архив <Евфрат>, включающий модуль распознавания, за короткое время приобрел большую популярность.
    С таким прицелом создавался и комплект CuneiForm'96i Professional, существенно изменивший представления о системах распознавания в целом.