Синхронизация по SbS [Полезность]
Было / стало
Что мы не делаем в разметке полезности
Уровни оценки
Оценка признака – оценка критерия
Оценка ответа и SbS
Комментарии
Общий комментарий
Оценка критериев
Выводы
435.08K

Синхронизация по SbS -Полезность- (1)

1. Синхронизация по SbS [Полезность]

СИНХРОНИЗАЦИЯ ПО
SBS [ПОЛЕЗНОСТЬ]
25.08.25

2. Было / стало

Сравнение
ответов на
инстракты (SbS)
SbS
[Полезность]
Безопасность
Релевантность
Достоверность
Полнота
Полезность
• Собственно
полезность
• Качество текста
Конкретика /
Отсутствие
воды

3. Что мы не делаем в разметке полезности

Мы не оцениваем безопасность ответа:
• опасные советы и рекомендации,
• наличие в ответе неуместного контента,
• субъективность ответа.
Мы не проверяем ответы на достоверность:
• фактические ошибки,
• логические ошибки,
• несоответствия, искажения и наличие внешней информации в запросах с контекстами;
• наличие сомнительной (ненаучной и непроверяемой информации),
• актуальность данных в ответе.
Мы не смотрим на качество текста:
• форматирование и оформление,
• структура ответа,
• ясность и читаемость ответа,
• стиль и грамотность текста,
• соответствие Tone of Voice и редполитике,
• качество рифмы в стихотворениях,
• человечность и проактивность модели.

4. Уровни оценки

• Аспект: полезность
• Критерии: релевантность,
полнота, конкретика
• Признаки: несколько у каждого
критерия

5.

Критерий
Признаки
Оценка критерия

6. Оценка признака – оценка критерия

7. Оценка ответа и SbS

Релевантность 0 – другие
критерии тоже 0, итог
«Стыдный бесполезный
ответ»
Приоритетность:
релевантность – конкретика
– полнота

8. Комментарии

• Общий комментарий: ожидание от ответа
• Комментарий к ответам A и B: что в ответе привело к
такой разметке
• Общий комментарий: почему один ответ лучше другого?
Автору комментарии
помогают
сформулировать свои
мысли, более
осознанно оценить и
отранжировать ответы
Заказчикам
комментарии помогают
понять логику оценки

9. Общий комментарий

• Сколько задач в запросе? Какие это задачи?
• Есть ли среди задач, содержащихся в запросе, основные и дополнительные? Как звучат основные
задачи запроса? Как звучат дополнительные задачи запроса?
Какой тип задач решает пользователь: он хочет получить информацию, решить задачу или
сгенерировать уникальный текст?
Интерпретация запроса однозначна? Если нет, какие альтернативы существуют?
Есть ли в запросе какие-то смысловые ограничения на ответ (например, "рассуждай перед тем, как
ответить", "поясни сложные термины", "ответь без лишней информации")?
Есть ли в запросе ограничения на формат вывода ответа (например, "ответь в JSON", "оформи
ответ в таблицу", "не используй списки")?
Известна ли целевая аудитория ответа? Какой уровень экспертности ответа подразумевает запрос:
знания уровня детского сада, программы средней школы, университетского уровня, уровня
научных исследований?
Какие конкретные детали должны быть в ответе, чтобы ответ можно было применить сразу?
Нужно ли использовать для ответа какую-то приложенную пользователем информацию? Можно ли
при ответе на вопрос пользоваться всей информацией или только приложенной к запросу?
Есть ли в приложенных пользователем данных информация, которая будет полезна для ответа на
его запрос?
Будут ли полезны альтернативные способы решения задачи?
Нужны ли дополнительные пояснения и примеры для того, чтобы ответ был понятен?
Какой контекст нужно предоставить пользователю, чтобы ответ был понятен?
Есть ли какая-то информация, которую пользователь не запросил прямо, но она была бы полезна
для решения его задачи?

10. Оценка критериев

11. Выводы

— Фактчекать не нужно: мы не оцениваем безопасность,
достоверность ответа и качество текста.
— Критериев полезности три: релевантность, полнота и конкретика.
Критерии делятся на признаки.
— Признаки, которые мы раньше отдельно не размечали в SbS:
уровень экспертности ответа и наличие альтернативных решений.
— Итоговая оценка выставляется и для каждого критерия, и для всего
ответа. Полезность измеряется по шкале от 0 до 3, а не в звёздах.
— В SbS должен победить ответ только по параметру полезности,
даже если вы видите в нем опасные советы или фактические ошибки.
Размечая Sbs [Полезность], мы считаем что:
— модель умеет ходить в интернет,
— модель может выполнить любую задачу (нарисовать картинку,
создать pdf, написать диссертацию), и снижаем оценку, когда она этого
не делает.
English     Русский Правила