14.12.2007 00:00
Новости.
Просмотров всего: 5606; сегодня: 1.

Cognitive Technologies открывает коды программы Cuneiform

Компания Cognitive Technologies анонсирует разработки в области Open Source. Данное направление в течение последних двух лет переживает небывалый подъем во всем мире и преимущества его очевидны:

- любой желающий может бесплатно получить программный продукт;

- любой желающий может доработать продукт в соответствии со своими желаниями и требованиями, благодаря тому, что коды программы открыты.

Как свидетельствует мировой опыт развития Open Source - решений, данные условия предоставляют широкие возможности для масштабного развития программных продуктов. Пример Linux, Apache, Open Office и других продуктов не дает повода в этом усомниться.

Кроме того, как коммерческая компания, Cognitive Technologies видит реальную выгоду от развития направления. OCR – технологии составляют незначительный сегмент ИТ-рынка, но для того, чтобы его активно развивать требуется довольно значительный производственный ресурс. Еще в 1995 году Cognitive Technologies сделал стратегическое заявление о том, что OCR-системы уже достигли промышленного качества распознавания. Дальнейшее повышение точности распознавания не является первостепенной задачей (две или четыре ошибки сделает система на пяти листах не столь принципиально). В дальнейшем они будут трансформироваться в утилиты к «большим системам». К этому, в итоге, и была сведена деятельность компании в части распознавания печатных текстов. (Наоборот, в области ICR и IDR наша компания активно занималась и занимается исследованиями и разработками, связанными с распознаванием сложных документов, форм документов, технологиями «понимания» документов и т.д.)

Сегодня уже привычно видеть модули распознавания в системах электронного документооборота, графических и текстовых редакторах. Не секрет, что в ближайшее время возможность распознавания появится и в поисковых машинах. Стоит сказать, что за период с 2000 года никаких революционных изменений в технологиях OCR не произошло. Развитие данных систем шло, главным образом, по пути совершенствования их сервисной стороны и расширения списка дополнительных возможностей (распознавание новых языков и т.д.) (Отметим, что в этот период времени серьезные результаты были получены в сферах forms processing и «понимания» документов).

Весь период разработки OCR CuneiForm, по оценке Cognitive Technologies, составил порядка 470 человеко-лет.

Наш опыт в проектах Open Source

Таким образом, по мнению Cognitive Technologies подключение ресурса «сообщества» в разработки в сфере OCR под руководством ученых-консультантов и менеджеров Cognitive Technologies должно принести значимый эффект. Отметим, что Cognitive Technologies уже имеет значительный научно-производственный опыт работ по направлению Open Source. В течение двух последних лет компания является исполнителем проекта ФЦП «Электронная Россия» по созданию Open Source-решений для органов государственной власти России. Кроме того, несколько месяцев назад Cognitive Technologies начала Open Source проект по распознаванию марок автомобилей, который реализуется с участием студенческого сообщества под эгидой кафедры Когнитивных Технологий, открытой Cognitive Technologies в МФТИ. Результаты по данному проекту планируется получить к 2010 году.

Open Source-проект «OCR CuneiForm» - научный проект Cognitive Technologies

Необходимо отметить, что для компании Cognitive Technologies, в которой научные исследования занимают значительную долю деятельности, Open Source проект OCR CuneiForm представляет огромный научно-практический интерес. Компания предполагает получить комплекс идей и методов, который сможет значительно усилить данную систему и получить в ближайшее время ряд «прорывных» технологических решений.

Рынок свободного ПО

Объем мирового рынка свободного ПО, по данным аналитической компании Saugatuck Technology, к 2010 году составит $22 млрд. при ежегодном росте в 30%. По данным исследовательского центра "Финам", рынок свободного ПО в России составляет сегодня $40 млн. К 2010 году эта цифра достигнет $200 млн.

Доля Cognitive Technologies к 2010 году может составить 5-7% за счет оказания услуг, технической поддержки и рекламы.

Программа «Распознавание должно быть на каждом компьютере»

Предполагается, что одним из основных результатов Open Source - проекта OCR CuneiForm должен стать рост популярности и распространенности решений в области распознавания печатных текстов благодаря открытости кода и нулевой стоимости ПО. Системы распознавания должны стать общедоступными!

По данным Cognitive Technologies число активных пользователей систем распознавания (те, кто используют OCR не реже 1 раза в месяц) за счет использования Open Source к 2010 году может возрасти в 5 раз, во многом за счет активного подключения к использованию OCR офисных сотрудников, учащихся школ, студентов вузов, а также государственных структур, для которых бесплатное ПО станет хорошей альтернативой пиратским продуктам.

Таким образом, число пользователей OCR к этому периоду времени может составить порядка 25 млн. человек. (Сегодня это число составляет порядка 5 млн. чел.)

Компания Cognitive Technologies планирует развивать проект в три этапа:

1. OCR Cuneiform - программa Freeware

12 декабря 2007 года OCR CuneiForm станет доступной для широкого использования (freeware). Полную версию системы можно будет скачать с сайта Cognitive Technologies www.cuneiform.ru (http://www.cuneiform.ru/downloads/index.html), а также в последствии с тематических ресурсов www.download.ru, www.freeware.ru и т.д.

2. Подготовка web-сервиса

В рамках данного этапа будет подготовлен Интернет-ресурс www.Cuneiform.ru. Любой желающий сможет бесплатно распознать документы в on-line.

Сроки: конец января 2008 г.

Компания Cognitive Technologies планирует довести число распознаваний на www.Cuneiform.ru до 10 000 в день к концу 2008 г.

3. Подготовка и размещение исходных кодов OCR Cuneiform

Сроки: март 2008 г.

С начала марта 2008 года Cognitive Technologies в качестве инвестора и координатора планирует начать работы по подготовке новой версии OCR CuneiForm с участием широких слоев компьютерного «сообщества».

Информация об OCR CuneiForm:

OCR CuneiForm может распознавать любые полиграфические, машинописные гарнитуры всех начертаний и шрифты, получаемые с принтеров за исключением декоративных и рукописных. В систему встроены специальные алгоритмы для распознавания текста с матричного принтера, плохих ксерокопий факсов и машинописи.

• высокое качество распознавания;

• высокая скорость работы;

• распознавание текстов на русском, английском, смешанном русско-английском, украинском, немецком, французском, испанском, итальянском, шведском и других (всего более 20);

• работа в режиме автофрагментации для поиска текстовых блоков, таблиц и изображений, а также мощное средство ручной и полуавтоматической фрагментации;

• распознавание таблиц любой структуры и сложности, в том числе и без отображения линий табличной сетки;

• автоматическое сохранение иллюстраций (черно-белых и цветных) и таблиц в получаемом на выходе документе;

• полное сохранение топологии страницы;

• поддержка пакетного режима сканирования и распознавания;

• простота использования и интуитивный интерфейс, встроенные помощники по работе с программой;

• встроенный текстовый редактор для работы с распознанным текстом;

• совмещенный показ изображений и результатов распознавания.

В системе используется целый ряд уникальных технологий, среди которых адаптивное распознавание, нейронные сети, когнитивный анализ альтернатив распознавания и другие.


Ньюсмейкер: Cognitive Technologies — 214 публикаций
Поделиться:

Интересно:

Деньги маслом не испортишь
27.12.2024 17:50 Аналитика
Деньги маслом не испортишь
Люди по-разному относятся к деньгам. Для одних это лишь средство к существованию, для других — вопрос личного статуса, для третьих — путь к роскошной жизни. Едва ли не половина мировой литературы посвящена этическим, практическим и символическим аспектам финансового...
Среди крестьян я чувствовала себя настоящим человеком
27.12.2024 12:59 Персоны
Среди крестьян я чувствовала себя настоящим человеком
Невероятная судьба царской сестры Великой княгини Ольги Александровны Романовой (1882–1960). В сказках Золушки становятся принцессами, а в реальной жизни бывает так, что настоящая принцесса становится Золушкой: сама стирает, стряпает обед и копает грядки. Такая метаморфоза произошла с Ольгой...
Самарский купец, промышленник, благотворитель Антон Шихобалов
27.12.2024 10:10 Персоны
Самарский купец, промышленник, благотворитель Антон Шихобалов
Шихобалов Антон Николаевич (1827–1908) – видный самарский благотворитель, купец первой гильдии, коммерции советник, пожертвовал около 1,5 млн руб. Шихобалов происходил из крестьянской семьи, из села Наченалы Ардатовского уезда (сейчас территория Мордовии). Его отец занимался земледелием и...
Как Василий Маргелов с двумя автоматчиками и броневиком город взял
27.12.2024 09:03 Аналитика
Как Василий Маргелов с двумя автоматчиками и броневиком город взял
27 декабря 1908 года в городе Екатеринославе (современный Днепр) родился Василий Филиппович Маргелов – будущий советский военачальник, генерал армии, Герой Советского Союза. В историю он вошел как один из самых результативных командующих Воздушно-десантными войсками, который превратил их в элиту...
«Будь Здоров» оценили проекты студентов ГУУ
27.12.2024 06:29 Мероприятия
«Будь Здоров» оценили проекты студентов ГУУ
В декабре в бизнес-центре Государственного университета управления прошел Демо-день акселерационной программы «Технологии здоровой жизни 2.0», в рамках которого участники представили свои проекты, в числе которых – мобильные устройства для мониторинга здоровья, портативные биоанализаторы и другие...