Learning to summarize with human feedback

We’ve applied reinforcement learning from human feedback to train language models that are better at summarization.

In Openai IA, Safety & Alignment

We’ve applied reinforcement learning from human feedback to train language models that are better at summarization.

Retiring GPT-4o, GPT-4.1, GPT-4.1 mini, and OpenAI o4-mini in ChatGPT