Похожие презентации:
Синхронизация по SbS -Полезность- (1)
1. Синхронизация по SbS [Полезность]
СИНХРОНИЗАЦИЯ ПОSBS [ПОЛЕЗНОСТЬ]
25.08.25
2. Было / стало
Сравнениеответов на
инстракты (SbS)
SbS
[Полезность]
Безопасность
Релевантность
Достоверность
Полнота
Полезность
• Собственно
полезность
• Качество текста
Конкретика /
Отсутствие
воды
3. Что мы не делаем в разметке полезности
Мы не оцениваем безопасность ответа:• опасные советы и рекомендации,
• наличие в ответе неуместного контента,
• субъективность ответа.
Мы не проверяем ответы на достоверность:
• фактические ошибки,
• логические ошибки,
• несоответствия, искажения и наличие внешней информации в запросах с контекстами;
• наличие сомнительной (ненаучной и непроверяемой информации),
• актуальность данных в ответе.
Мы не смотрим на качество текста:
• форматирование и оформление,
• структура ответа,
• ясность и читаемость ответа,
• стиль и грамотность текста,
• соответствие Tone of Voice и редполитике,
• качество рифмы в стихотворениях,
• человечность и проактивность модели.
4. Уровни оценки
• Аспект: полезность• Критерии: релевантность,
полнота, конкретика
• Признаки: несколько у каждого
критерия
5.
КритерийПризнаки
Оценка критерия
6. Оценка признака – оценка критерия
7. Оценка ответа и SbS
Релевантность 0 – другиекритерии тоже 0, итог
«Стыдный бесполезный
ответ»
Приоритетность:
релевантность – конкретика
– полнота
8. Комментарии
• Общий комментарий: ожидание от ответа• Комментарий к ответам A и B: что в ответе привело к
такой разметке
• Общий комментарий: почему один ответ лучше другого?
Автору комментарии
помогают
сформулировать свои
мысли, более
осознанно оценить и
отранжировать ответы
Заказчикам
комментарии помогают
понять логику оценки
9. Общий комментарий
• Сколько задач в запросе? Какие это задачи?• Есть ли среди задач, содержащихся в запросе, основные и дополнительные? Как звучат основные
задачи запроса? Как звучат дополнительные задачи запроса?
Какой тип задач решает пользователь: он хочет получить информацию, решить задачу или
сгенерировать уникальный текст?
Интерпретация запроса однозначна? Если нет, какие альтернативы существуют?
Есть ли в запросе какие-то смысловые ограничения на ответ (например, "рассуждай перед тем, как
ответить", "поясни сложные термины", "ответь без лишней информации")?
Есть ли в запросе ограничения на формат вывода ответа (например, "ответь в JSON", "оформи
ответ в таблицу", "не используй списки")?
Известна ли целевая аудитория ответа? Какой уровень экспертности ответа подразумевает запрос:
знания уровня детского сада, программы средней школы, университетского уровня, уровня
научных исследований?
Какие конкретные детали должны быть в ответе, чтобы ответ можно было применить сразу?
Нужно ли использовать для ответа какую-то приложенную пользователем информацию? Можно ли
при ответе на вопрос пользоваться всей информацией или только приложенной к запросу?
Есть ли в приложенных пользователем данных информация, которая будет полезна для ответа на
его запрос?
Будут ли полезны альтернативные способы решения задачи?
Нужны ли дополнительные пояснения и примеры для того, чтобы ответ был понятен?
Какой контекст нужно предоставить пользователю, чтобы ответ был понятен?
Есть ли какая-то информация, которую пользователь не запросил прямо, но она была бы полезна
для решения его задачи?
10. Оценка критериев
11. Выводы
— Фактчекать не нужно: мы не оцениваем безопасность,достоверность ответа и качество текста.
— Критериев полезности три: релевантность, полнота и конкретика.
Критерии делятся на признаки.
— Признаки, которые мы раньше отдельно не размечали в SbS:
уровень экспертности ответа и наличие альтернативных решений.
— Итоговая оценка выставляется и для каждого критерия, и для всего
ответа. Полезность измеряется по шкале от 0 до 3, а не в звёздах.
— В SbS должен победить ответ только по параметру полезности,
даже если вы видите в нем опасные советы или фактические ошибки.
Размечая Sbs [Полезность], мы считаем что:
— модель умеет ходить в интернет,
— модель может выполнить любую задачу (нарисовать картинку,
создать pdf, написать диссертацию), и снижаем оценку, когда она этого
не делает.