Проблема анализа оригинальности изображений документа формата PDF | Статья в журнале «Молодой ученый»

Отправьте статью сегодня! Журнал выйдет 11 мая, печатный экземпляр отправим 15 мая.

Опубликовать статью в журнале

Автор:

Рубрика: Информационные технологии

Опубликовано в Молодой учёный №22 (469) июнь 2023 г.

Дата публикации: 30.05.2023

Статья просмотрена: 25 раз

Библиографическое описание:

Бурый, А. С. Проблема анализа оригинальности изображений документа формата PDF / А. С. Бурый. — Текст : непосредственный // Молодой ученый. — 2023. — № 22 (469). — С. 8-10. — URL: https://moluch.ru/archive/469/103462/ (дата обращения: 03.05.2024).



Ключевые слова: программный модуль, плагиат изображений, анализ оригинальности изображений, обратный поиск изображений.

Предметная область выявления плагиата в данный момент очень актуальна. Наиважнейшее значение выявления плагиата заключается в его способности сохранять целостность научных и творческих работ. При использовании чужой работы без указания авторства или разрешения подрывается принцип интеллектуальной честности. Эти действия могут повлечь за собой юридическую и моральную ответственность, а также нанести вред репутации или авторитету.

Формат PDF (Portable Document Format) был разработан компанией Adobe Systems в 1993 году с целью предоставления универсального формата для обмена документами, сохраняющих свою структуру и внешний вид на различных платформах и операционных системах. С тех пор PDF стал стандартом для представления и распространения документов в электронном виде [1].

Плагиат иллюстраций — этот тип плагиата подразумевает под собой заимствование изображений. Если изображений в анализируемой работе немного, то выявить этот тип плагиата можно, используя специальные поисковые системы, при наличии оригиналов изображений в сети Интернет. Если же изображений в проверяемом документе большое количество, то такой процесс будет занимать много времени, увеличивая трудоемкость задачи.

Большинство антиплагиатных систем работают с текстами. Но если в документе есть заимствованные рисунки или фотографии, то выявить их происхождение подобными программными продуктами не получится. Напрашивается вариант попробовать отдельно к каждому изображению применить поиск графических данных по образцу с помощью таких сервисов, как TinEye, Google Images, Yandex.Images, Bing Images. Если проверок небольшое количество, то применение такого варианта возможно. Но если анализировать требуется большое количество изображений, то подход к решению задачи необходимо менять. Например, есть возможность автоматизировать процесс извлечения графических файлов из документа и направить их на анализ стороннему сервису. Под сторонним подразумевается сервис, который принимает на вход изображение и возвращают пользователю набор ссылок на предположительное веб-страницы, на которых это изображение расположено.

Технология обратного поиска изображений дает возможность пользователям выполнять поиск изображений на основании их визуальных свойств, содержания или метаданных, отказываясь от классического текстового поиска. Обратный поиск весьма полезен для проверки подлинности изображений в научных статьях или журналистской работе [2].

Сервисы обратного поиска обычно используют алгоритмы компьютерного зрения для анализа изображений и поиска сходства. Среди известных сервисов обратного поиска изображений можно отметить Google Images, TinEye, Bing Images, Yandex.Images и другие.

Извлечение из документа и последующий анализ изображений — трудоемкий процесс, который может быть автоматизирован. Автоматизацию данного процесса позволит осуществить программный модуль для анализа оригинальности изображений документа формата PDF.

Сервисы TinEye, Яндекс.Картинки, Google images и Bing images производят поиск только по одному изображению, предложенный программный модуль производит поиск по изображениям, которые находятся в документе формата PDF.

Сервисы TinEye, Яндекс.Картинки, Google images и Bing images принимают на вход готовое изображение, предложенный программный модуль автоматически извлекает изображения из документа формата PDF.

Сервисы TinEye, Яндекс.Картинки, Google images и Bing images производят поиск только по одному изображению, предложенный программный модуль производит поиск по всем изображениям, которые находятся в документе формата PDF, отображая единый результат поиска в пользовательском интерфейсе.

Сервисы TinEye, Яндекс.Картинки, Google images и Bing images к каждому найденному изображению предлагают одну ссылку на электронный ресурс, на котором она была найдена, предложенный программный модуль производит анализ всех ссылок на электронные ресурсы, на которых были найдены изображения, и отображает их в отсортированном виде в пользовательском интерфейсе.

Схема данных для программного модуля представлена на рис. 1.

Схема данных программного модуля

Рис. 1. Схема данных программного модуля

Схема алгоритма работы программного модуля представлен на рис. 2.

Алгоритм работы программного модуля

Рис. 2. Алгоритм работы программного модуля

В целом, описанный программный модуль предоставляет автоматизированный и эффективный подход к выявлению плагиата в документах формата PDF, особенно в отношении использования изображений. Он помогает поддерживать интеллектуальную честность, предотвращает нарушения авторских прав, юридическую и моральную ответственность, а также негативное влияние на репутацию и авторитет. Предложенный модуль автоматизирует процесс извлечения изображений из PDF-документа, осуществляет их поиск в выбранных сервисах и предоставляет объединенные результаты и анализ ссылок на электронные ресурсы. Это позволяет пользователям эффективно проверять оригинальность изображений и сохранять целостность научных и творческих работ.

Литература:

  1. Portable_Document_Format. — Текст: электронный // Википедия свободна\энциклопедия: [сайт]. — URL: https://ru.wikipedia.org/wiki/Portable_Document_Format (дата обращения: 30.04.2023).
  2. Обратный поиск изображений с помощью ИИ. — Текст: электронный // Crypto News: [сайт]. — URL: https://cryptonews.net/ru/editorial/tekhnologii/obratnyy-poisk-izobrazheniy-s-pomoshchyu-ii/?ysclid=li9jpdcjqv846266106 (дата обращения: 30.04.2023).
Основные термины (генерируются автоматически): PDF, программный модуль, документ формата, изображение, предложенный программный модуль, обратный поиск изображений, сервис, интеллектуальная честность, моральная ответственность, обратный поиск.


Ключевые слова

программный модуль, плагиат изображений, анализ оригинальности изображений, обратный поиск изображений

Похожие статьи

Программа для ЭВМ как объект интеллектуальной собственности

Поиск.

Скачать Часть 6 (pdf). Библиографическое описание: Лосева, А. П. Программа для ЭВМ как объект интеллектуальной собственности / А. П. Лосева.

Аудиовизуальные отображения, генерируемые программой, представляют собой некоторую последовательность звуков, изображений

Особенности оформления документов для государственной...

Разработка программного модуля по реализации функции...

Библиографическое описание: Николаев, О. В. Разработка программного модуля по реализации функции интеллектуальной обработки данных для системы 1С-Битрикс / О. В. Николаев.

Для выполнения поиска похожих товаров и пользователей (т. е. кластеризации) в программном модуле

Рис. 3. Схема алгоритма предложенного программного решения.

Математическое моделирование систем распознавания...

Метод на основе поиска компонент связности является одним из самых действенных в отношении изображений

Сегментированное изображение задается парой — изображение и разметка на классы. .

3. Малышева Е. К. Автоматическая сегментация изображений рукописных документов.

Математическое и программное обеспечение распознавания...

Разработка информационного обеспечения автоматизированной...

Ключевые слова: обнаружение, eye-tracker, изображение, машинное обучение.

На вход системы поступают изображения формата JPEG или PNG поставленные заказчиком.

Процесс тестирования респондентов регулируется документом, а именно регламентом тестирования.

Опишем более детально требования к задачам разрабатываемого программного продукта.

Алгоритм распознавания текстовой информации на изображении...

Обработанный файл передается в модуль сегментации, задачей которого является

После сегментации полученные данные собираются в обратном порядке в готовый файл.

Для начала документ делится на страницы, далее определяются текстовые блоки.

нейронных сетей, предложенная в 1988 году и предназначенная для распознавания изображений.

Сравнительный анализ библиотек языка PHP для формирования...

Для упрощения процесса формирования документов существует несколько библиотек для языка PHP.

Поиск.

PHPWord позволяет работать с таблицами, изображениями и различными видами диаграмм (круговые и кольцевые диаграммы, столбцовые диаграммы, диаграммы

Анализ электронных документов в формате XML – трудоемкая задача.

Применение интеллектуальных технологий в процессе...

Сертификация программного обеспечения (ПО) на соответствие требованиям

При выборе оцениваемых характеристик необходимо обеспечить их представление в едином формате.

Расчет характеристики осуществляется по аналогии с поиском заданных конструкций в

Использование интеллектуальных технологий является перспективным направлением для...

Интеллектуальные системы анализа изображений

 В прикладных интеллектуальных системах анализа изображений основными функциональными задачами являются оценки качества изображения, определения границ объекта, классификация, кластеризация и распознавания образов.

Характеристические подходы при распознавании изображений

Они применяются в распознавании изображений, что является актуальным на сегодняшний

Скачать Часть 1 (pdf). Библиографическое описание: Кураева, Е. С. Характеристические

Примером служат задачи поиска изображений по базе данных, распознавания объектов на

Разработка сервиса распознавания брендовых лейблов. SIFT Scale-invariant feature transform [2].

Похожие статьи

Программа для ЭВМ как объект интеллектуальной собственности

Поиск.

Скачать Часть 6 (pdf). Библиографическое описание: Лосева, А. П. Программа для ЭВМ как объект интеллектуальной собственности / А. П. Лосева.

Аудиовизуальные отображения, генерируемые программой, представляют собой некоторую последовательность звуков, изображений

Особенности оформления документов для государственной...

Разработка программного модуля по реализации функции...

Библиографическое описание: Николаев, О. В. Разработка программного модуля по реализации функции интеллектуальной обработки данных для системы 1С-Битрикс / О. В. Николаев.

Для выполнения поиска похожих товаров и пользователей (т. е. кластеризации) в программном модуле

Рис. 3. Схема алгоритма предложенного программного решения.

Математическое моделирование систем распознавания...

Метод на основе поиска компонент связности является одним из самых действенных в отношении изображений

Сегментированное изображение задается парой — изображение и разметка на классы. .

3. Малышева Е. К. Автоматическая сегментация изображений рукописных документов.

Математическое и программное обеспечение распознавания...

Разработка информационного обеспечения автоматизированной...

Ключевые слова: обнаружение, eye-tracker, изображение, машинное обучение.

На вход системы поступают изображения формата JPEG или PNG поставленные заказчиком.

Процесс тестирования респондентов регулируется документом, а именно регламентом тестирования.

Опишем более детально требования к задачам разрабатываемого программного продукта.

Алгоритм распознавания текстовой информации на изображении...

Обработанный файл передается в модуль сегментации, задачей которого является

После сегментации полученные данные собираются в обратном порядке в готовый файл.

Для начала документ делится на страницы, далее определяются текстовые блоки.

нейронных сетей, предложенная в 1988 году и предназначенная для распознавания изображений.

Сравнительный анализ библиотек языка PHP для формирования...

Для упрощения процесса формирования документов существует несколько библиотек для языка PHP.

Поиск.

PHPWord позволяет работать с таблицами, изображениями и различными видами диаграмм (круговые и кольцевые диаграммы, столбцовые диаграммы, диаграммы

Анализ электронных документов в формате XML – трудоемкая задача.

Применение интеллектуальных технологий в процессе...

Сертификация программного обеспечения (ПО) на соответствие требованиям

При выборе оцениваемых характеристик необходимо обеспечить их представление в едином формате.

Расчет характеристики осуществляется по аналогии с поиском заданных конструкций в

Использование интеллектуальных технологий является перспективным направлением для...

Интеллектуальные системы анализа изображений

 В прикладных интеллектуальных системах анализа изображений основными функциональными задачами являются оценки качества изображения, определения границ объекта, классификация, кластеризация и распознавания образов.

Характеристические подходы при распознавании изображений

Они применяются в распознавании изображений, что является актуальным на сегодняшний

Скачать Часть 1 (pdf). Библиографическое описание: Кураева, Е. С. Характеристические

Примером служат задачи поиска изображений по базе данных, распознавания объектов на

Разработка сервиса распознавания брендовых лейблов. SIFT Scale-invariant feature transform [2].

Задать вопрос