Latin Plus Line Annotation

1.

Latin Plus Line Annotation
October 9, 2023 | Version 3.2

2.

Version Control
Version #
Updates Made (slide #)
Date Updated
3.1
Updated with Thai script images: # 14-15, 17, 20, 22-23, 25, 30-31, 54-56, 75-76, 90
New slides: #2, 24, 28, 91
October 14, 2022
3.2
- Tool UI related slides are updated
- Boxing tools change of names (now Rectangle and Polygon tool). No
change in functionality
October 8, 2022

3.

Оголошення для тайських анотаторів
Цей документ допоможе анотаторам розібратися з правилами для латинської та
тайської графіки. Настанови щодо вставки та правила анотацій є спільними для
латинської та тайської графіки. Цей документ містить приклади обох шрифтів для
більшості випадків:
● Якщо у певному випадку наведено приклад лише для латинської графіки, це
означає, що правило застосовується і для тайської графіки.
● Якщо правило анотації працює дещо по-іншому для тайської графіки, це буде
описано на окремому слайді.
AIML Annotatio
Apple Confidential - In

4.

Переміщайтеся по документу,
натискаючи на розділи нижче
Task Overview
Workflow
Tool Overview
Qualifying Conditions
Boxing Guidelines
Annotation Rules
Transcription Guidelines
Flags
• Transcription Needed
• No Transcription Needed
Огляд завдання

5.

Task Overview
Ви отримаєте різноманітні зображення з текстом, які вам потрібно буде анотувати, використовуючи конкретні вказівки про те, як це
зробити:
Перевірте, чи відповідають зображення умовам для анотування
Об'єднайте весь текст смисловим рядком, незалежно від стилю тексту
Використовуйте відповідний інструмент для малювання рамок
Точно розшифровуйте все, що знаходиться в рамці
Правильно застосуйте прапорці
Обробляйте особливі випадки використання

6.

Огляд завдання
Примітка: Всі зображення повинні бути анотовані, якщо тільки вони не відповідають умовам конкурсу або якщо
ви не відчуваєте дискомфорту через їхній зміст.
Зображення були відфільтровані, але іноді деякий дорослий контент все ще може зустрічатись
Якщо зображення не відповідає кваліфікаційним критеріям АБО якщо ви відчуваєте
дискомфорт від його змісту, ви можете відхилити зображення, вибравши причину
відхилення.

7.

Переміщайтеся по документу,
натискаючи на розділи нижче
Task Overview
Workflow
Tool Overview
Qualifying Conditions
Boxing Guidelines
Annotation Rules
Transcription Guidelines
Flags
• Transcription Needed
• No Transcription Needed
Кроки процесу анотування

8.

Кроки процесу анотування
Перевірка
Боксинг
Перегляньте свій бокс і транскрипцію, щоб
переконатися,
що
вони
відповідають
рекомендаціям.
Перевірте
орфографію,
пунктуацію та написання великої літери, а
також переконайтеся, що точка прив'язки для
рамки є правильною.
На основі вашої оцінки, об'єднайте текст
смисловими
лініями,
використовуючи
інструмент "Прямокутник", де це можливо.
Інструмент "Багатокутник" використовуйте
лише у випадках, коли цього вимагає текст.
1
2
3
4
5
Оцінка тексту
Транскрипція/Лейблінг
Сабміт
Прочитайте
представлений
текст
картинки. Чи містить текст спеціальні
символи? Чи весь він розбірливий? Чи є в
тексті стилі (курсив, підкреслення,
закреслення)?
Транскрибуйте та/або нанесіть прапорець
відповідно до інструкцій. Щоб забезпечити
точність
при
транскрибуванні,
зверніть
особливу увагу на орфографію та написання
великих літер.
Після того, як ви позначили і
транскрибували весь наявний текст для
цього
зображення,
відправляйте
завдання і переходьте до наступного
зображення.

9.

Переміщайтеся по документу,
натискаючи на розділи нижче
Task Overview
Workflow
Tool Overview
Qualifying Conditions
Boxing Guidelines
Annotation Rules
Transcription Guidelines
Flags
• Transcription Needed
• No Transcription Needed
Огляд тулу

10.

Інтерфейс тулу
Інструменти
боксу
Використовуйте інструмент
"Прямокутник"
або
Скасувати/повторити
"Багатокутник" відповідно
Дозволяє скасувати або
до
вказівок у
цьому
переробити попередню
документі.
дію.
Клавіатура
Використовуйте
цю
віртуальну клавіатуру для
відображення тексту, щоб
переконатися,
що
використовується точний
юнікод.
Поле транскрипції
Це поле з'являється, коли
позначено мітку "Потрібна
транскрипція".
Видалити/Дублювати/Копіювати
і
Вставити
Дозволяє видалити або продублювати
вибране поле з підписами та
транскрипціями. Для міток доступна
функція копіювання та вставки
Показати
керування
елементи
Клацніть на цю іконку, щоб
знайти гарячі клавіші та
інші підказки.
Надіслати анотацію
Перед
надсиланням
переконайтеся, що вибрано
правильний
бокс,
транскрипцію та лейбли
Панелі міток
Застосовуйте мітки до
тексту, який потребує або
не потребує транскрипції.
Інструменти
для
створення
фігур
Використовуйте їх після
того,
як
рамку
намалювали,
щоб
зробити точний бокс.

11.

Інтерфес тулу
Меню Параметри перегляду показує додаткові гарячі клавіші та функціональні можливості, які дозволяють вам налаштувати вигляд
вашої анотації.
Однією з корисних доступних функцій є налаштування шрифту. Вибравши
Збільшити розмір шрифту або Зменшити розмір, ви можете налаштувати шрифт
міток.
Перед налаштуванням шрифту
Після налаштування
шрифту

12.

Інтерфейс тулу: Інструменти фігур
Перетворення до полігону і Обертання точки прив’язки - це дві функції, які допоможуть вам забезпечити точність рамки.
Перевести в полігон - це функція, за допомогою якої можна переключитися з інструмента
"Прямокутник"
на інструмент "Полігон".
Інструмент Прямокутник вибрано за замовчуванням і використовується у більшості випадків. Ви
можете почати малювати рамку за допомогою цього інструмента, а потім зрозуміти, що геометрія
рамки не є точною або опорна точка розташована неправильно. У таких випадках натисніть на
кнопку "Перевести в багатокутник" і почніть коригувати рамку.
Примітка: НЕ використовуйте перетворення на багатокутник регулярно. Використовуйте
інструмент "Прямокутник", коли це можливо.
Обертання точки прив'язки - це функція, яка дозволяє змінювати положення точки прив'язки. Ця функція доступна лише для інструмента
"Багатокутник",
тому вам може знадобитися спочатку перетворити прямокутник на багатокутник, а потім відрегулювати
положення точки прив'язки.
Примітка: Якщо деякі з цих кнопок, включно з кнопкою "Готово", не активні,
швидше за все, ви пропустили один з етапів створення анотації.
Перевірте свою анотацію!

13.

Інтерфейс тулу: Мітки/Лейбли
Transcription Needed
No transcription Needed
Ці лейблии потребують
Текст
транскрипції тексту.
прапорцями
з
цими
потрібно
лише взяти в рамки.
Транскрипція
потрібна.
Детальні
вказівки
застосування
щодо
міток/лейблів
наведені в окремій главі цього
документа (див. Навігацію).
не

14.

Інтерфейс тулу: Віртуальна клавіатура та гарячі клавіші
Віртуальна клавіатура
Hot Keys
У випадках, коли деякі спеціальні символи відсутні на стандартній
Гарячі клавіші та інші підказки можна знайти під піктограмою Показати
управління:
фізичній клавіатурі, використовуйте віртуальну клавіатуру або
виправте Юнікод, щоб зберегти точність транскрипції:
Гарячі клавіші, які використовуються найчастіше:
Unsupported Glyph
Якщо
ви
h
зустрінете
Приховати/показати всі не виділені анотації.
Примітка: це не призведе до видалення анотацій.
якийсь гліф, якого немає
на
вашій
фізичній
клавіатурі,
або
якщо
текст
може
бути
не
знайдений в Юнікоді,
виберіть цю опцію на
k
esc
Приховати/показати всі мітки.
Примітка: це не призведе до видалення анотацій.
Знімає позначку з анотації, якщо ви позначили поле з
анотацією.
віртуальній клавіатурі.
spacebar
Повертає зображення до стандартного, повного
розміру (зменшеного), якщо ви його збільшили.
Завжди натискайте пробіл, якщо ви збільшили
зображення.

15.

Переміщайтеся по документу,
натискаючи на розділи нижче
Task Overview
Workflow
Tool Overview
Qualifying Conditions
Boxing Guidelines
Annotation Rules
Transcription Guidelines
Flags
• Transcription Needed
• No Transcription Needed
Кваліфікаційні умови

16.

Кваліфікаційні умови
Перш ніж анотувати текстові зображення, ви повинні виконати певні умови. Перед тим, як анотувати зображення, ви переглянете зображення і
визначите, чи відповідає воно одному з наведених нижче сценаріїв. Поставте собі два запитання:
Hello
1
สว ัสดี
Чи є на зображенні текст, який можна
прочитати?
Занадто розмитий до такої міри,
Якщо на зображенні немає тексту або
що текст неможливо розпізнати.
воно занадто розмите, щоб його можна
було розпізнати, не додавайте анотацію
до зображення (Відхилити).
Читабельний текст
Немає тексту на
зображенні

17.

Кваліфікаційні умови
Перш ніж анотувати текстові зображення, ви повинні виконати певні умови. Перед тим, як анотувати зображення, ви переглянете зображення і
визначите, чи відповідає воно одному з наведених нижче сценаріїв. Поставте собі два запитання:
Hello
1
สว ัสดี
Чи є на зображенні текст, який можна
прочитати?
Якщо на зображенні немає тексту або
воно занадто розмите, щоб його можна
було розпізнати, не додавайте анотацію
Занадто розмитий до такої міри, що
до зображення (Відхилити).
текст неможливо розпізнати.
Читабельний текст

18.

Кваліфікаційні умови
Перш ніж анотувати текстові зображення, ви повинні виконати певні умови. Перед тим, як анотувати зображення, ви переглянете зображення і
визначите, чи відповідає воно одному з наведених нижче сценаріїв. Поставте собі два запитання:
PII - Personal Identifiable Information - це інформація, яка потенційно може
бути відстежена до людини:
• Прізвища, імена, адреси електронної пошти
2
Чи не містить зображення даних PII?
• Інформація, що посвідчує особу: Номер соціального страхування, номер
водійського посвідчення, номер паспорта тощо.
Якщо є інформація, яка може бути PII,
• Інформація про банківський рахунок
то не анотуйте зображення
• Паролі WIFI
(Відхилити).
• Інформація про кредитну картку
• Адреса проживання на коробках/обкладинках журналів
• Підпис або імена на квитанціях
• Обличчя, відображене у вітрині, вивісці, меню людини, яка фотографує

19.

Кваліфікаційні умови
Перш ніж анотувати текстові зображення, ви повинні виконати певні умови. Перед тим, як анотувати зображення, ви переглянете зображення і
визначите, чи відповідає воно одному з наведених нижче сценаріїв. Поставте собі два запитання:
2
Чи не містить зображення даних PII?
Якщо є інформація, яка може бути PII,
то не анотуйте зображення
(Відхилити).
Інформація не може бути потенційно відстежена до людини.
Анотуйте

20.

Переміщайтеся по документу,
натискаючи на розділи нижче
Task Overview
Workflow
Tool Overview
Qualifying Conditions
Boxing Guidelines
Annotation Rules
Transcription Guidelines
Flags
• Transcription Needed
• No Transcription Needed
Правила створення рамки

21.

Правила створення рамки
Перевірка
Боксинг
1
Оцінка тексту
2
3
4
Транскрипція/Лейблінг
Після того, як ви оцінили зображення, перевіривши кваліфікаційні умови, можна приступати до
анотування тексту.
Примітка: Малювання точних рамок - один з найважливіших етапів цього завдання.
5
Відправка

22.

1
Орієнтація рамки
Переконайтеся, що рамка рухається в тому ж напрямку, що й текст на зображенні. Поверніть рамку так, щоб точка прив'язки
була у верхньому лівому куті тексту.
Lorem
ipsum
dolor
sit
amet,

23.

1
Орієнтація рамки
Точка прив'язки повинна починатися у верхньому лівому куті тексту, а решта точок повинні створюватися, обертаючись за
годинниковою стрілкою.
Точка прив’язки
2-га координата
4-та координата
3-тя координата

24.

1
Орієнтація рамки
Вставте текст в рамку в будь-якому напрямку і переконайтеся, що опорна точка знаходиться у верхньому
лівому куті рамки, а решта точок - за годинниковою стрілкою.

25.

2
Розмір рамки
Переконайтеся, що рамки якомога щільніше прилягають до краю тексту. Однак уникайте обведення навколо літер. Переконайтеся,
що рамка має 4 вершини, коли текстовий рядок має пряму базову лінію і не сильно перекриває інший текст.
Незначне перекриття з іншими блоками допустиме, якщо цього не можна уникнути.
Незначне перекриття НЕ є прийнятним, якщо
нижня лінія поля відрізає цілісний штрих літери
(літер).
Верхня частина літери E відрізана, а це означає,
що система не зможе розпізнати цю літеру.
Незначне перекриття

26.

2
Розмір рамки
Приклад
для тайської
мови
Незначне перекриття НЕ є прийнятним, якщо нижній
або верхній рядок поля обриває цілісний штрих літери
(літер). Знак Sara Uuู відрізано, а це означає, що
система не зможе розпізнати цю літеру.
Ми детально розглянемо, як анотувати ці сценарії в
розділі "Інструмент "Полігон"" в цьому документі.

27.

2
Розмір рамки
Уникайте вкладених рамок.
California
California
Вкладені рамки та значне перекриття
Виключаємо початкову літеру при
визначенні розміру рамки

28.

Інструмент: Прямокутник
3
Виберіть відповідний інструмент:
• Використовуйте інструмент "Прямокутник", якщо текстовий рядок має пряму базову лінію і не сильно перекривається іншим текстом.
• Використовуйте інструмент "Багатокутник", якщо текстовий рядок вигнутий і/або деякі літери перекривають інший текст.
Інструмент чотирикутника
Переконайтеся, що фігура є прямокутником
і має 4 вершини.
Примітка:
Інструмент
рамка"
використовувати
слід
інструмента
можливо.
"Прямокутна
"Багатокутник",
замість
якщо
це

29.

3
Інструмент: Полігон(багатокутник)
Виберіть відповідний інструмент:
● Використовуйте інструмент "Прямокутник", якщо текстовий рядок має пряму базову лінію і не сильно перекривається іншим текстом.
● Використовуйте інструмент "Багатокутник", якщо текстовий рядок вигнутий і/або деякі літери перекривають інший текст.
Інструмент
багатокутника

30.

3
Інструмент: Полігон(багатокутник)
Приклад
для тайської
мови
Виберіть відповідний інструмент:
● Використовуйте інструмент "Прямокутник", якщо текстовий рядок має пряму базову лінію і не сильно перекривається іншим текстом.
● Використовуйте інструмент "Багатокутник", якщо текстовий рядок вигнутий і/або деякі літери перекривають інший текст.
Інструмент
багатокутника
Використовуйте інструмент "Багатокутник", щоб
уникнути вторгнення символів у простір інших
рядків.

31.

3
Інструмент: Полігон(багатокутник)
Навіть якщо базова лінія тексту вигнута, це все одно буде вважатися одним рядком тексту.
Де можливо, переконайтеся, що зверху і знизу вкладеного рядка має бути однакова кількість точок.
Інструмент
багатокутника

32.

4
Контурні ефекти: Ефекти зміщення
Зміщення, тіні, світіння або інші ефекти контуру повинні бути включені в рамку, якщо вони повторюють контур форми
літери.

33.

4
Ефекти контуру: Ефекти розтікання
Іноді текстові елементи або ефекти можуть надмірно збільшувати розмір. Ігноруйте ефекти розтікання і зосередьтеся на формі
тексту.

34.

5
Знаки пунктуації
Включіть у поле всі типи розділових знаків і стилів тексту:
• Підкреслення
• "Лапки"
• Крапка (.)
• Знаки питання (?)
• Двокрапка (:)
• Маркети списку
Примітка: Ігноруйте розділові знаки, які не несуть жодної смислової нагрузки (наприклад, поодинокі коми/крапки).
,,
,,

35.

5
Знаки пунктуації
Примітка: Розділові знаки НЕ означають новий рядок.

36.

Чек-лист перевірки коректності рамок
Використовуйте наведені нижче пункти як контрольний список при перегляді ваших рамок:
Орієнтація поля: анотувати текст у будь-якому напрямку та забезпечити правильне розташування точки прив'язки
Розмір рамки: Малюйте рамки якомога щільніше до краю тексту. Уникайте обведення навколо літер. Незначне
перекриття з іншими блоками допустиме, якщо цього не можна уникнути. Уникайте вкладених блоків.
Інструмент для створення рамки: Використовуйте інструмент "Прямокутник", коли це можливо. Інструмент
"Багатокутник" використовуйте для криволінійного тексту або для уникнення сильного перекриття блоків.
Контурні текстові ефекти: Додавайте зміщення до рамок, якщо вони повторюють контур форми літери. Ігноруйте
ефекти розтікання і зосередьтеся на формі тексту.
Пунктуація: Всі види розділових знаків і стилізації тексту повинні бути включені в рамки.

37.

Переміщайтеся по документу,
натискаючи на розділи нижче
Task Overview
Workflow
Tool Overview
Qualifying Conditions
Boxing Guidelines
Annotation Rules
Transcription Guidelines
Flags
• Transcription Needed
• No Transcription Needed
Правила анотування

38.

Правила анотування: Анотувати по рядках
Звичайний/друкований текст слід анотувати за смисловими рядками (в контексті того, як текст буде читатися по рядках). НЕ
анотуйте речення або абзаци. Розділові знаки будь-якого типу повинні бути включені в рядок.
Анотація до абзацу.
Анотація по рядках.
Анотація по рядках так, як її буде читати
людина (по стовпчиках).

39.

Правила анотування: Анотувати по рядках
Примітка: Навіть текст, який відрізняється за розміром або стилем, буде включено, якщо він
знаходиться в одному рядку і читається однаково.

40.

Правила анотування: Анотувати по рядках
Користувач прочитає кожен з шести
пунктів повністю, перш ніж перейти
до опису наступного пункту. Отже,
кожна
анотована
позиція
окремо,
повинна
як
бути
показано
праворуч.
Жовті рамки неправильні, оскільки ви
Зелені рамки є правильними,
не зможете прочитати текст по одному
оскільки кожен рядок виділено
рядку, як показано на малюнку.
так, як він буде прочитаний.

41.

Правила анотування: Анотувати по рядках
Квитанції розділені на колонки з найменуванням, кількістю та вартістю. Кожну з них слід занести в окрему коробку,
як показано на малюнку.
Розділювачі
Позиції в квитанції
Кожна
позиція,
кількість і вартість
повинні бути вказані
окремо.
Відокремлюйте роздільники
від тексту, навіть якщо вони
знаходяться
на
одному
рядку.
Переконайтеся,
що
висота
блоків
для
роздільників і тексту, що
прилягає до них, однакова.

42.

Правила анотування: Анотувати по рядках
Меню та факти про поживні речовини

43.

Правила анотування: Анотувати по рядках
Навіть текст, що має потенційно різні варіанти розміщення, можна вважати одним рядком тексту.
Ці викривлені рядки можуть бути використані у творчих цілях, але не змінюють способу, в який ми
читаємо текст.

44.

Правила анотування: Окремі об'єкти
Окремі літери, цифри, розділові знаки/символи та слова повинні мати власну анотацію.
Найкращий спосіб зрозуміти, як слід анотувати текст, - це зрозуміти, як цей текст читається.
Текст в електронній таблиці або діаграмі буде анотований по
кожній окремій комірці. Такий самий підхід слід використовувати
для текстів, що містяться в нотах.

45.

Правила анотування: Окремі об'єкти
Окремі символи слід брати в рамки, тільки якщо вони є частиною тексту.
Символи повинні бути на одній базовій лінії і не перевищувати висоту тексту.
Не брати в рамки
Стрілка не знаходиться на одній
базовій лінії з текстом.
Анотуємо
Стрілка знаходиться на одній базовій
лінії з текстом.

46.

Правила анотування: Окремі об'єкти
Не анотуємо
Стрілка відображається як окремий
символ під текстом (не є частиною
тексту).
Зірки не є частиною тексту.
Анотуємо

47.

Правила анотування: Окремі об'єкти
Впишіть лише цифри та літери як окремі елементи, якщо вони зустрічаються в розділі Годинник або Компас.
Кожна область зазвичай читається як окремий об'єкт. Це пов'язано з тим, що текст слідує за стандартною
прямою базовою лінією, а не за кривизною кола, що створює криву базову лінію.

48.

Правила анотування: Математичні формули
• Якщо рівняння не містить символів, що перевищують один рядок, то рівняння вставляється в один рядок.
• Якщо рівняння містить символи, що займають два або більше рядків, то слід виділити все рівняння окремо.
Вставити в рамку все рівняння
Оскільки символ розтягується на два або
більше рядків, згрупуйте все рівняння в
одну клітинку.
Математичне рівняння буде позначено як
Language на кроці транскрибування.
Вставляйте кожен рядок окремо
Вставте дроби в рамки
Жоден символ не може розтягуватися на
два або більше рядків.
Якщо з'являється один дріб, виділіть його
як один, тоді на етапі транскрипції він буде
позначений як Stacked Text на етапі
транскрипції.

49.

Правила анотування: Цінники
Ціни вказані в анотації в залежності від макету.
Виділяйте ціну окремо, коли текст відображається у
Об'єднайте ціну в одну рамку, якщо текст знаходиться в
одному рядку.
двох рядках (€ і кома знаходяться на одній вертикалі).

50.

Правила анотування: Дата та пунскт призначенння
Час і пункти призначення повинні бути виділені окремо, оскільки текст, що з'являється в таблиці, повинен читатися по клітинках.
Час і пункт призначення належать до різних комірок і
виділені правильно.
Час і пункт призначення повинні бути
вказані як дві окремі клітинки і виділені
в окрему клітинку.

51.

Правила анотування: Штрих-код
Кожен номер, знайдений під штрих-кодом, потрібно позначити трьома окремими полями.

52.

Правила анотування: Нечіткий текст
Іноді сторінки дуже тонкі, і текст з наступної сторінки проглядається на задньому плані. Цей тип тексту буде виглядати дуже блідим і
дзеркально відображеним. Не обводьте такий текст рамкою, оскільки він не належить до поточної сторінки.
Коректна рамка
Текст не слід брати в рамку, оскільки він належить до наступної сторінки і
проглядається наскрізь.

53.

Переміщайтеся по документу,
натискаючи на розділи нижче
Task
Overview
Workflow
Tool Overview
Qualifying Conditions
Boxing Guidelines
Annotation Rules
Transcription Guidelines
Flags
• Transcription Needed
• No Transcription Needed
Правила транскрибування

54.

Правила транскрибування
Перевірка
Боксинг
1
Оцінка тексту
2
2
4
Транскрипція/Лейблінг
Анотування - це не лише процес малювання рамок навколо тексту,
але й транскрибування та додавання міток до тексту, якщо це
необхідно.
Наступні розділи допоможуть вам розібратися з правилами
транскрибування та використання лейблів
5
Відправка

55.

Правила транскрипції: Перевірка правопису
Всі слова, що транскрибуються, пройдуть перевірку правопису, вбудовану в поле вільного тексту. Перевірка орфографії буде
фіксувати неправильно написані слова на рівні слів. Щоб переконатися, що перевірка правопису налаштована правильно і
ввімкнена для вашої цільової мови та англійської, переконайтеся, що ви налаштували свій браузер Chrome:
Chrome Browser —> Preferences —> Advanced —> Languages —> Select Language.

56.

Правила транскрипції: Анатомія шрифту
Знання анатомії шрифту є важливою частиною визначення використання прапорців/написів.

57.

Правила транскрипції: Анатомія шрифту
Базова лінія - це невидима лінія, на яку спирається рядок тексту.
Висота кегля - це висота пласких великих літер шрифту
(наприклад, M або I), виміряна від базової лінії.
Круглі та загострені великі літери, такі як S та A, оптично
вирівнюються,
якщо
їх
накреслити
з
невеликим
перевищенням над висотою кегля, щоб досягти ефекту
однакового розміру. Кожен шрифт має унікальну висоту
кегля.

58.

Правила транскрипції: Анатомія шрифту
Висота x - це висота малої літери x для шрифту, яка
вказує, наскільки високим або низьким буде кожен гліф у
шрифті.
Висхідні штрихи - це штрихи від малих літер, які виходять за
межі висоти x. Низхідні - це штрихи з малих літер, які виходять
за межі базової лінії.

59.

Правила транскрипції: Оформлення тексту
Іноді тексти можуть мати певний стиль або оформлення, пов'язані
з ними. Після того, як ви перепишете текст в анотації, зверніть
увагу, чи не виділено його курсивом, підкресленням або
закресленням. Не має значення, чи це лише одне слово, чи цілий
рядок тексту в анотації.

60.

Правила транскрипції: Регістр літер
Точність важлива! Великі та малі літери повинні точно відповідати тексту, який ви бачите в рамці.
TEXT Example
TEXT Example
TEXT Example
Text Example
text example
TEXT Example
Incorrect Transcription
Слово "TEXT" транскрибувалося
тільки з великої літери Т. Всі інші
великі літери в слові ігноруються.
Incorrect Transcription
Всі
великі
літери
були
проігноровані, і транскрибовані
лише малими.
Correct Transcription
Кожна літера слова "TEXT"
пишеться
з
великої
літери
відповідно до оригіналу. Перша
літера "Е" у слові "Example" також
пишеться
з
великої
літери
відповідно до оригіналу.

61.

Правила транскрипції: Комерційні символи
Обов'язково додайте комерційні символи, такі як: Знак охорони авторського права (©), Знак торгової марки (™), Зареєстровано (®).
Brand™
Brand™
Brand™
Brand™
Brand
BrandTM
Correct Transcription
Транскрибування
символу
торговельної
[™](U+2122)
марки
необхідне
відповідності
анотованого тексту.
для
повного
Incorrect Transcription
У цій транскрипції
анотації
вилучено символ торгової марки.
Incorrect Transcription
Символи "T" і "M" не є заміною
символу Trade Mark.

62.

Правила транскрипції: Пунктуація
Пунктуація повинна точно відповідати тексту, як показано в рамці.
(Example?)
(Example?)
(Example?)
(Example?)
Example
Example?
Correct Transcription
Транскрибування дужок разом
зі знаком питання відповідно
до
повного
тексту.
анотованого
Incorrect Transcription
Усі розділові знаки було вилучено.
Incorrect Transcription
Транскрибовано лише знак питання.
Переконайтеся,
що
всі
розділові
знаки транскрибовано відповідно до
поданої анотації.

63.

Transcription Guidelines: Spaces
При транскрибуванні пробілів між словами та символами дотримуйтесь простоти транскрипції і вводьте лише один пробіл між кожним словом,
навіть якщо може здатися, що слова знаходяться далі одне від одного. Переконайтеся, що не додаєте пробіли.
OF
TIME AND SPACE
OF TIME AND SPACE
408 - 259 - 2955
408-259-2955
Transcription: 550000
Transcription: 550 000

64.

Правила транскрипції: Юнікоди
При транскрибуванні спеціальних символів переконайтеся, що ви використовуєте правильний юнікод. Дотримуйтесь
правильних кроків:
MacOS
Windows
https://support.office.com/en-us/article/insert-
Linux
натисніть Ctrl + Shift + u, <Кодова
викликати спливаюче вікно
ascii-or-unicode-latin-based-symbols-and-
точка юнікоду>, пробіл
символів.
characters-d13f58d3-7bcb-44a7-
1. Натисніть Ctrl + Cmd + пробіл, щоб
2. У рядку пошуку введіть код юнікоду
- крапку, якій передує префікс U+.
3. Виберіть символ.
a4d5-972ee12e50e0

65.

Правила транскрипції: Юнікоди
Це деякі з найпоширеніших спеціальних символів, з якими ви зустрінетесь під час транскрибування. Переконайтеся, що ви
використовуєте правильну кодування Unicode.
Symbol
Description
Unicode
©
Copyright
U+00A9
®
Registered
U+00AE

Trademark
U+2122
½
One Half
U+00BD

Superscript 0
U+2070
¹
Superscript 1
U+00B9
²
Superscript 2
U+00B2
³
Superscript 3
U+00B3
4
Superscript 4
Symbol
Description
Unicode

Subscript 0
U+2080
¹
Subscript 1
U2081
²
Subscript 2
U2082
³
Subscript 3
U2083
4
Subscript 4
U2084
5
Subscript 5
U2085
6
Subscript 6
U2086
7
Subscript 7
U2087
8
Subscript 8
U2088
9
Subscript 9
U2089
U+2074
5
Superscript 5
U+2075
6
Superscript 6
U+2076
7
Superscript 7
U+2077
8
Superscript 8
U2078
9
Superscript 9
U2079
Unicode Table
https://unicode-table.com/en/
Перейдіть
щоб
юнікоди
за
посиланням,
знайти
правильні
для
додаткових
спеціальних символів.

66.

Правила транскрипції: Юнікоди
У цьому прикладі 90 є надрядковою цифрою і для її транскрибування потрібно
використовувати відповідний Юнікод, оскільки $3890 не те саме, що $38⁹⁰.
90
$38
$3890

67.

Чек-лист перевірки правильності транскрипції
Використовуйте наведені нижче пункти як контрольний список під час перегляду транскрипції:
Великі та малі літери, а також розділові знаки повинні точно відповідати тексту, як показано в рамці.
Включно з комерційними символами, такими як: Знак авторського права (©), Знак торгової марки (™), Зареєстровано
(®).
При розшифровці пробілів дотримуйтесь простоти транскрипції і вводьте тільки один пробіл між кожним словом, навіть
якщо може здатися, що слова знаходяться далі один від одного. Не додавайте кілька пробілів.
При транскрибуванні спеціальних символів переконайтеся, що ви використовуєте правильний юнікод.

68.

Переміщайтеся по документу,
натискаючи на розділи нижче
Task Overview
Workflow
Tool Overview
Qualifying Conditions
Boxing Guidelines
Annotation Rules
Transcription Guidelines
Flags
• Transcription Needed
• No Transcription Needed
Мітки/Лейбли

69.

Мітки/Лейбли
Текст, який ви вставляєте в рамки, можна позначати, а можна і не позначати мітками. Щоразу, коли текст виходить за
рамки стандартного тексту, його потрібно позначити (наприклад, текст містить прикраси, стилі або макети).
Є кілька можливих сценаріїв:
Транскрипція потрібна
Транскрипція не потрібна
Не позначаємо міткою
Позначаємо міткою
Транскрипція потрібна
Позначаємо міткою

70.

Мітки/Лейбли
Переміщайтеся по документу,
натискаючи на розділи нижче
Task Overview
Workflow
Tool Overview
Qualifying Conditions
Лейбли, що потребують
транскрипції
Boxing Guidelines
Annotation Rules
Transcription Guidelines
Flags
• Transcription Needed
• No Transcription Needed
У цьому розділі ми зосередимося на тих мітках, які потребують
транскрипції.

71.

Лейбли: Transcription Needed - Artistic
Текст слід позначити як "Художній", якщо він надмірно стилізований, використовує фігурні літери або має зображення як
підказки для літер. Присвоєння тексту цього прапорця означає, що символи є непередбачуваними і не можуть бути
передбачені або зрозумілі машиною.
Лампа замінює літеру i у Pixar
Обличчя панди замінює літери P та A
Всі літери надмірно стилізовані

72.

Лейбли: Transcription Needed - Artistic
Примітка: Загальні типи шрифтів (наприклад, курсивні) не вважаються художніми.
Transcribe
Transcribe
З лейблом“Artistic”
Без лейблів

73.

Лейбли: Transcription Needed - Logo
Логотип - це графічний знак, емблема, символ або стилізована назва, що використовується для ідентифікації компанії, організації, продукту чи
бренду. Логотип може мати форму абстрактного або образного малюнка, або ж представляти собою стилізовану версію назви компанії, якщо
вона має достатню впізнаваність. Такий текст слід позначити як "Логотип".
Примітка: Використовуйте цей прапорець, якщо ви знаєте, що це логотип, в іншому випадку ви можете використовувати прапорець "Artistic".
Монограми, в яких літери
Іконка/малюнок
між
неможливо
літерами
бути
розділити
символами, слід позначити як
"Logo".
повинна
позначена як "Logo".

74.

Лейбли: Transcription Needed - Handwritten
Рукописний текст - це текст, у якому літери написані непослідовно. Акуратний почерк, де всі літери однакової висоти, не є почерком.
Щоб визначити, рукописний текст чи ні, уявіть собі три уявні червоні лінії, що
проходять уздовж тексту. Якщо висота літер і інтервал між ними не
збігаються, вважайте, що це рукописний текст.
Примітка: Прапорці, незважаючи на те, що вони позначені від руки, можуть бути
проігноровані:

75.

Лейбли: Transcription Needed - Handwritten
Рукописний текст - це текст, у якому літери написані непослідовно. Акуратний почерк, де всі літери однакової висоти, не є почерком.
Транскрибуємо
З лейблом “Handwritten”
Транскрибуємо без
лейблу

76.

Лейбли: Transcription Needed - Handwritten
Примітка: Якщо рукописний текст нерозбірливий, його слід позначити як "Нерозбірливий" і помістити в рамку окремо від
розбірливого рукописного тексту.
Illegible
Не потребує транскрипції
Handwritten
Потребує транскрипції
Illegible
Не потребує транскрипції
Переконайтеся, що рукописний текст виділено окремо від звичайного/друкованого тексту. Застосуйте прапорець "Рукописний" до
відповідного тексту.

77.

Лейбли: Transcription Needed - Stacked text
Складений текст - це текст, який не дотримується стандартного горизонтального форматування (зліва направо), а накладається один
на одного - літери виглядають вертикально по відношенню до своєї базової лінії.
Анотуйте текст у тому напрямку, в якому він читається. Зверніть особливу увагу на
розташування опорних точок (верхній лівий кут квадратів, решта точок за годинниковою
стрілкою).
Stacked Text
Застосуйте лейбл
Повернутий текст,
без лейблу
Примітка: Звичайний текст на тому самому
зображенні слід брати в рамки, як зазвичай.

78.

Лейбли: Transcription Needed - Curved baseline
Кривий текст - це текст, базова лінія якого злегка вигнута або повністю загорнута/закруглена.
Якщо дельта базової лінії дорівнює половині висоти x або більше, ми вважаємо це кривим текстом і позначаємо рядок як "Крива базова
лінія".
Базова лінія - це невидима лінія, на яку спирається рядок тексту.
Висота x - це висота малої літери x для шрифту.
Висхідна лінія - це вертикальний штрих деяких малих літер, що
піднімається вгору.

79.

Лейбли: Transcription Needed - Curved baseline
Кривий текст - це текст, базова лінія якого злегка вигнута або повністю загорнута/закруглена.
Якщо дельта базової лінії дорівнює половині висоти x або більше, ми вважаємо це кривим текстом і позначаємо рядок як "Крива базова
лінія".
Базова лінія пряма. Це не криволінійний текст.
Дельта базової лінії менша за половину висоти x. Це не
криволінійний текст.
Дельта базової лінії дорівнює половині висоти x. Застосувати
прапор!
Відступ від базової лінії більший за висоту x. Застосувати
прапорець!
Дельта базової лінії навіть вища за висхідну лінію,
отже, це точно викривлений текст. Застосувати прапорець!

80.

Лейбли: Transcription Needed - Curved baseline
Циліндрична крива формує вигнуту базову лінію:
Верхня та нижня частини тексту вважаються
вигнутими, на що вказує дельта базової лінії.
Середня
частина
тексту
не
вважається
викривленою.
Порада: Побудова уявної базової лінії допомагає
оцінити відстань до висоти х і визначити дельту
базової лінії.

81.

Лейбли: Transcription Needed - Curved baseline
Вигнутий текстовий бокс і транскрипція:
Lore
m
ipsum
dolor sit
amet
,
Lorem
ipsum
dolor sit
amet
,
Приклад 1
Звичайний напрямок тексту.
- Транскрибуйте весь текст у синіх та зелених
клітинках.
- Сині клітинки слід позначити як "Крива базова лінія".
- Зелені клітинки не повинні бути позначені.
Приклад 2
Частково
протилежний
напрямок
тексту
у
фіолетовому кольорі.
- Транскрибуйте весь текст у зеленому та
фіолетовому блоках
- Фіолетові поля слід позначити як "Крива базова
лінія".
- Зелені поля не слід позначати.

82.

Лейбли: Transcription Needed - Curved baseline
Curved VS. Overlap Stamp
Тут текст виділено в один квадрат, оскільки на печатці є
Lorem
ipsum
dolor
sit
amet,
водяний знак, який перетинає печатку, що може призвести
до перекриття.
- Текст у цьому випадку НЕ буде транскрибований і має
бути позначений як "Штамп перекриття".

83.

Лейбли: Transcription Needed - Curved baseline
Вигнутий текст завжди слід обводити інструментом "Полігон". Не розбивайте рядок на кілька рамок, щоб відобразити
кривизну тексту.
Polygon Tool
Інструмент "Полігон"
забезпечує точне захоплення
всього криволінійного
тексту
Rectangle Tool
Одна велика рамка є
неправильною
Багато окремих рамок
є неправильним

84.

Мітки/Лейбли
Переміщайтеся по документу,
натискаючи на розділи нижче
Task
Overview
Tool
Overview
Workflow
Qualifying Conditions
Лейбли, що не потребують
транскрипції
Boxing Guidelines
Annotation Rules
Transcription Guidelines
Flags
• Transcription Needed
• No Transcription Needed
У цьому розділі ми зосередимося на тих лейблах, які НЕ потребують
транскрипції.

85.

Лейбли: No Transcription Needed - Obscured/Clipped
Obscured/clipped текст - це текст, який ми можемо частково бачити, але не можемо повністю зрозуміти, про що йдеться, оскільки він
закритий іншим рядком тексту або навіть зображенням, яке повністю блокує текст.
У прикладах Зеленого E
порушено цілісність штрихів.
Отже, застосуйте прапорець.
Прапорець
"Obscured/Clipped"
слід
використовувати лише тоді, коли порушено
цілісність штриха. Якщо штрих літери видно
повністю, транскрибуйте як звичайно і не
застосовуйте прапорець.
У прикладах синього E штрих
все ще повністю видимий. Отже,
це
НЕ
текст.
затемнений/обрізаний

86.

Лейбли: No Transcription Needed - Obscured/Clipped
Переконайтеся, що приховані/обрізані фрагменти тексту виділено окремо від звичайного/друкованого тексту. Застосуйте прапорець
"Obscured/Clipped" до відповідного тексту.
Obscured/Clipped
Застосуйте лейбл
У
цьому
прикладі
ви
Звичайний текст без
лейблів
бачите
початок літери, але не можете
визначити, що це за літера після
"Текст".
Звичайний текст
без лейблів
Obscured/Clipped
Застосуйте лейбл
Звичайний текст
без лейблів
Obscured/Clipped
Застосуйте лейбл

87.

Лейбли: No Transcription Needed - Obscured/Clipped
Примітка: Якщо більше ніж 20% лінії приховано/обрізано, слід позначити всю лінію як приховану/обрізану.
Obscured/Clipped
Застосуйте лейбл
Впливає на весь рядок тексту. Встановити лейбл

88.

Лейбли: No Transcription Needed - Obscured/Clipped
Obscured/clipped
Не Obscured/clipped
Застосуйте лейбл
Без лейбли

89.

Лейбл: No Transcription Needed - Illegible
Illegible text це текст, який складно зрозуміти через сильну розмитість або наявність декількох літер, розташованих одна над одною.
Прапорець "Нерозбірливо" слід застосовувати, якщо весь текст у рамці нерозбірливий. Частини тексту, які можна прочитати,
повинні бути виділені в окрему рамку.
Illegible
Застосуйте мітку
Звичайний текст
без використання
мітки

90.

Лейбли: No Transcription Needed - Illegible
Переконайтеся, що нерозбірливий текст виділено окремо від звичайного/розбірливого тексту. Застосуйте прапорець
"Нерозбірливо" до відповідного тексту.
Illegible
Legible
Illegible
Згрупувати
Все, що знаходиться на межі повної нерозбірливості, можна
Illegible
згрупувати в одну клітинку. Використовуйте цю функцію, коли
ви можете сказати, що це текст, але не можете його чітко
розшифрувати.
Legible
Весь розбірливий текст на зображенні повинен бути взятий в
рамку, як зазвичай.

91.

Лейбли: No Transcription Needed - Dense BG text
Частина тексту може бути використана для створення словесної картинки або для формулювання унікального фону за допомогою слів або мап:
Текст на фоні (BG) утворює
картинку. Складіть разом і
виберіть “Dense BG text”.
Текст розбірливий і легко відокремлюється
від фонового тексту (BG). Мітка відсутня.
Транскрибуємо.
Текст вбудований у фон і його
важко відокремити. Складіть разом і
застосуйте “Dense BG text”.
Порада:
Використовуйте
інструмент "Багатокутник", щоб
уникнути перекриття.

92.

Лейбли: No Transcription Needed - Language
Прапорець "Language" використовується для:
• Тексту, який НЕ використовує ту саму писемність (алфавіт, складову систему або ідеографічну систему), що й мова перекладу
• Тексту, який НЕ написаний латиницею або кирилицею
• Математичне рівняння, яке береться в рамку цілком, якщо є символ, що займає більше двох рядків
Language
NO flag. Transcribe.
Apply flag
‫ريخال حابص‬
காை ல
வணe,கLI
สวัสดี
Будь-який текст латиницею та тайською абеткою не слід позначати
прапорцями, його слід транскрибувати незалежно від цільової мови
(наприклад, англійська цільова мова все одно буде транскрибувати
німецьку, французьку, в'єтнамську і т.д.).

93.

Лейбли: No Transcription Needed - Language
Приклади для
тайської мови
Language
NO flag. Transcribe.
Apply flag
Транскрипція не потрібна,
оскільки текст не є мовою
перекладу.

94.

Лейбли: No Transcription Needed - Language
Мова може бути позначена одним словом, кількома словами або цілим рядком тексту. Переконайтеся, що мовні фрагменти
тексту виділено окремо від звичайного тексту.
Language
NOT language
Apply flag
No flag. Transcribe.
Символ розтягується на два або
Транскрибуйте кожен рядок
більше рядків, а повне рівняння
нормально, використовуючи
знаходиться в одній клітинці.
правильні юнікоди для спеціальних
символів.

95.

Лейбли: No Transcription Needed - Separators
Розділювачі - це звичайні символи, які можна використовувати для позначення пробілу між елементами або розриву між словами,
наприклад, тире (=== - - -), амперсанд (&), зірочки (*) тощо. Вони найчастіше використовуються на чеках і в меню. Переконайтеся, що
вони виділені окремо від звичайного тексту.
Примітка:
Висота
рамок
для
роздільників і для прилеглого тексту
повинна бути однаковою.

96.

Лейбли: No Transcription Needed - Separators
Separators
NOT Separators
Apply flag
No flag. Transcribe.
Примітка:
Крапки,
коли
вони використовуються для
скорочення
слів,
роздільниками.
вказують
на
НЕ
є
Вони
не
пробіл
або
розрив між словами.

97.

Лейбли: No Transcription Needed - Inconsistent Orientation
Прапорець "Inconsistent Orientation" використовується для тексту, який не збігається з природним напрямком читання:
• Текст віддзеркалено
• Порушена базова лінія
Віддзеркалення
Точка прив'язки знаходиться в неправильному
положенні.

98.

Лейбли: No Transcription Needed - Overlap Stamp
Текст, який з'являється на круглому штампі або печатці, що перекривається, має бути позначений як "Overlap Stamp". Якщо текст не
перекривається, дотримуйтесь інструкцій для криволінійної базової лінії.
Overlap Stamp
Curved baseline
Apply flag
Apply flag. Transcribe

99.

Лейбли: No Transcription Needed - Overlap Stamp
• Якщо текст, що перекривається, явно домінує і є розбірливим, виділіть його і транскрибуйте як зазвичай.
• Якщо текст на передньому плані і на задньому плані однаково або майже однаково читабельний, виділіть всю область і позначте її
як "Штамп перекриття".
Текст, що перекривається, має
чітко домінувати і бути
розбірливим. Не позначайте
прапорцями.
Тексти на передньому і
задньому
плані
читаються
однаково
добре.
Тексти на передньому і
задньому
плані
читаються
однаково
добре.

100.

Лейбли: No Transcription Needed - Overlap Stamp
Щоб уникнути перекриття полів, не вставляйте текст після поля для печатки:
Correct
"Штамп
Допускається часткове перекриття на фоні тексту, що перекривається,
Correct
Preferable!
також
слід
використовувати, коли підпис перекриває
текст:
якщо фоновий текст має значно менший контраст.
перекриття"

101.

Вітаємо!
Ви завершили вивчення правил “Latin Plus Boxing and Transcription”!
English     Русский Правила