1bpimfkh Qqiibzen4wn6ka 1bpimfkh Qqiibzen4wn6ka

Que Produtos Baseados em LLM Vale a Pena Desenvolver? Perspectivas de UX e Adoção

Recentemente, tentei descobrir quais das muitas ideias de produtos de IA Generativa que me vêm à mente valem realmente a pena explorar. Inicialmente, escrevi várias versões de prompts para o ChatGPT, perguntando sobre as razões por trás do sucesso e fracasso dos produtos de IA contemporâneos em um amplo espectro (tanto B2C quanto B2B).

Aqui está a resposta do GPT-4 que considerei a melhor das três. Se você estiver satisfeito com esta resposta, pode parar de ler por aqui 😉

No entanto, essa resposta superficial mal aborda as características distintivas da IA generativa. A razão é óbvia: o tópico é novo, e havia dados insuficientes sobre os fatores de sucesso dos produtos de IA Generativa usados no treinamento do GPT-4.

Nesses casos, a pesquisa convencional no Google prova ser mais eficaz. Aqui estão as leituras longas que achei mais convincentes:

  1. Vencendo a Corrida Armamentista de Produtos de IA por Aniket Deosthali. O autor explora não apenas produtos baseados em GPT, mas também produtos de IA tradicionais, oferecendo uma análise aprofundada de várias perspectivas. Sua ‘Curva de Sobrevivência da IA’, baseada no framework Consideração x Contexto, é particularmente notável.
  2. Quais ideias de produtos de IA valem a pena explorar? Este artigo examina a seleção de ideias de produtos de IA Generativa potencialmente bem-sucedidas com base na viabilidade técnica. Gostei especialmente da definição clara de desempenho da IA, que forma a base de sua análise. O alto desempenho é, de fato, a chave para o sucesso.

Ambos os artigos destacam a falta de dados de qualidade (contexto) como uma razão para o fracasso de muitos produtos de IA. Sem dúvida, “Quanto melhores os dados que você alimenta o LLM, melhor será a saída”. No entanto, muitas tarefas podem ser abordadas usando IA Generativa sem exigir grandes quantidades de dados. Muitas vezes, apenas um prompt e um pequeno arquivo são suficientes para que a IA Generativa resolva a tarefa com alta qualidade.

O fato de os modelos GPT serem pré-treinados é uma enorme vantagem sobre a IA tradicional, que sempre requer treinamento para uma classe específica de tarefas. Esta é uma vantagem que precisamos aproveitar.

O Que Você Encontrará Abaixo

Ofereço uma perspectiva alternativa sobre quais produtos baseados em LLM valem a pena desenvolver.

  • Minha suposição: muitas ideias de produtos podem ser implementadas sem uma grande quantidade de dados de qualidade (como observado acima).
  • Também NÃO considero outras restrições tecnológicas que possam prejudicar a qualidade do produto.

Em vez disso, concentro-me no comportamento do usuário. Minha análise também se baseia mais nas características únicas dos LLMs do que em padrões comuns a todos os produtos inovadores.

A questão “Quais produtos de IA Generativa valem a pena desenvolver?” é incrivelmente ampla, mesmo se excluirmos produtos baseados em GPT sem LLMs (TTS, STT, transformadores de difusão, etc.). Portanto:

  1. Dividi a resposta em duas partes. A primeira parte, discutida neste artigo, concentra-se nas atitudes dos usuários em relação aos produtos. A segunda parte, a ser publicada em breve, será dedicada à análise de negócios das ideias de produtos, incluindo aspectos de concorrência.
  2. Em ambos os artigos, considero apenas dois modelos de negócios: B2C e B2B2C. Isso significa que excluo produtos B2B e desenvolvimentos internos; tais produtos estão mais intimamente ligados às necessidades e políticas da empresa do que às necessidades dos usuários finais, tornando sua sobrevivência dependente de fatores diferentes.

Abordo as seguintes questões relacionadas a produtos de software (aplicações para usuários finais) baseados em grandes modelos de linguagem:

  • Como o sucesso de uma aplicação de IA Generativa está ligado à tolerância dos usuários a erros?
  • Que características de um copiloto de IA especializado permitem que ele compita com chatbots de IA populares como o ChatGPT?
  • Como podemos superar a relutância natural dos usuários em adaptar seus hábitos às novas tecnologias?
  • Como deve ser um produto “completo” baseado em LLM?
  • O que é importante para que os produtos de IA Generativa “atravessem o abismo” além da completude?

Então, vamos examinar dois tipos de aplicações que provavelmente falharão 🚫 e dois tipos que têm uma alta chance de sucesso ✅.

1. Aplicações Com Altos Padrões de Qualidade ou Monitoramento de Qualidade Custoso Podem Falhar 🚫

Os resultados do LLM são imprevisíveis e difíceis de avaliar:

Mesmo que os usuários inicialmente avaliem o produto positivamente, um grupo diferente de usuários (ou os mesmos usuários em contextos diferentes) pode avaliar o produto de maneira muito diferente. Além disso, à medida que a base de conhecimento se expande, os resultados podem se degradar nos mesmos cenários onde antes eram bons o suficiente. Tal degradação pode ocorrer mesmo ao mudar para um LLM supostamente de “maior qualidade”.

Portanto, monitorar o desempenho (qualidade) de uma aplicação baseada em LLM é crucial para seu sucesso.

Um produto pode não ter sucesso se seu desempenho não puder ser monitorado por humanos, e a avaliação classificada por modelo não fornecer prevenção de erros suficiente. (Na verdade, é raro encontrar cenários em que o LLM pode ser confiável para monitorar a qualidade das saídas do LLM.)

Na verdade, depende da tolerância dos usuários a erros:

  • Você pode aplicar avaliação classificada por modelo ou ir completamente sem monitoramento se a qualidade dos resultados for significativamente maior que a tolerância dos usuários a erros.
  • Não faz sentido fazer aplicações baseadas em LLM em áreas onde a tolerância a erros é alta (por exemplo, se uma taxa de erro de 1% for considerada inaceitável). No entanto, o uso de LLM ainda pode ser justificado neste caso, se o produto for lucrativo apesar do custo do pessoal necessário para corrigir os erros do LLM.
  • Um cenário intermediário é o seguinte. A tolerância a erros está mais ou menos no mesmo nível do desempenho atual da aplicação. Então, a intervenção humana ainda é necessária, mas deve vir dos usuários finais, não dos funcionários da empresa de desenvolvimento. A próxima seção é dedicada a este tópico.

2. Copilotos Especializados Estão em Demanda ✅

Os LLMs carecem de pensamento sistêmico e compreensão abrangente de contextos mais amplos. Eles frequentemente lutam com situações raras que ficam fora da cobertura dos dados e do prompt do sistema. Portanto, as saídas do LLM precisam de revisão humana (tendo em mente a avaliação classificada por modelo, como discutido anteriormente). Idealmente, os usuários do produto devem servir como avaliadores humanos.

No entanto, para que isso seja eficaz, os usuários não devem ter expectativas irrealistas em relação à qualidade da saída. Os usuários devem ver a IA como um assistente, e não como um provedor externo obrigado a entregar um serviço de qualidade garantida.

Essas considerações levaram o mercado ao conceito de copilotos de IA. Embora alguns possam equiparar este termo a assistentes de IA, eu me inclino para a perspectiva de que os copilotos representam um subconjunto avançado de assistentes. Os copilotos não apenas informam e aconselham; eles são capazes de executar tarefas intrincadas dentro do produto para o qual foram projetados.

A maioria dos copilotos bem conhecidos é bastante versátil, pois são construídos em produtos multiuso que funcionam mais como plataformas do que aplicativos. Por exemplo, o Github é uma ‘plataforma’ para todos os programadores, o Microsoft Office 365 é uma ‘plataforma’ para todos os trabalhadores de escritório e profissionais do conhecimento, e ambos têm copilotos. Os copilotos também estão se desenvolvendo para sistemas operacionais como Windows ou iOS.

Copiloto de IA. Imagem criada pelo autor com Recraft.ai

Apesar do mercado de copilotos aparentemente saturado, acredito que ainda há espaço suficiente para o surgimento de novos produtos. No entanto, os copilotos desenvolvidos por startups não devem visar ser tão versáteis quanto gigantes como o GitHub Copilot X ou o Shopify Sidekick.

O verdadeiro potencial está em copilotos especializados que podem auxiliar profissionais em campos específicos muito mais eficazmente do que qualquer assistente de IA de propósito geral. Isso não é fácil de fazer, mas vale a pena.

Considere um copiloto adaptado para treinadores (especialistas, criadores de cursos). Tal ferramenta deve superar o ChatGPT na melhoria da qualidade do curso, reduzindo significativamente o esforço necessário:

  • Deve refletir a experiência única e o estilo de ensino do treinador.
  • Quando o objetivo se estende além do planejamento da sessão para incluir materiais de aprendizagem e tarefas dos alunos, o copiloto deve ser capaz de gerar estes em vários formatos, não apenas texto.
  • Para realmente simplificar o processo, os usuários não devem precisar confiar em copiar e colar os resultados do copiloto. Em vez disso, o copiloto deve se integrar perfeitamente com LMS (Sistemas de Gerenciamento de Aprendizagem), mensageiros ou outras ferramentas de entrega de cursos.

Para competir efetivamente com gigantes de tecnologia desenvolvendo assistentes de IA universais e incorporando-os em suas plataformas, os copilotos especializados devem oferecer uma proposta de valor substancialmente maior para seus grupos de usuários-alvo. Os benefícios não devem ser apenas incrementais, mas transformadores.

A lógica por trás desta afirmação está na seção seguinte.

3. Aplicativos de Economia Marginal de Esforço Não São Suficientes 🚫

Embora as aplicações alimentadas por IA generativa prometam experiências de usuário inovadoras, devemos reconhecer uma realidade: a maioria dos usuários é resistente a mudar seus hábitos, seja consciente ou inconscientemente. Acredito que as vantagens do “design de UX conversacional” são exageradas, enquanto a “personalização” e “adaptação às necessidades do usuário” baseadas em LLM podem ser imprevisíveis e irritantes.

Considere as interações em muitas aplicações alimentadas por LLM: os usuários são obrigados a inserir comandos de texto ou voz, muitas vezes envolvendo-se em longas conversas. Esta interface baseada em chat, embora nova, pode ser desafiadora para usuários típicos acostumados a interações simples de apontar e clicar. O chat por voz oferece uma solução parcial para este problema, mas muitos usuários acham ainda mais difícil do que o chat de texto.

Outro obstáculo está nas melhorias iterativas necessárias para obter saídas de LLM de qualidade. Isso não é necessariamente devido a imperfeições do LLM, mas sim decorre dos usuários refinando gradualmente seus requisitos. Para entender por que isso é um problema, vamos comparar os fluxos de trabalho antigos e novos:

  • Método tradicional (sem assistente): Os usuários podem incorporar instantaneamente novas ideias ou requisitos diretamente em seu rascunho, pois é fácil localizar edições para o autor do rascunho.
  • Novo processo “humano + assistente”: Cada novo requisito desencadeia uma regeneração completa do rascunho, com mudanças espalhadas imprevisivelmente por todo o texto. Essa mudança pode ser desconfortável, pois exige que os usuários passem mais tempo lendo e revisando do que escrevendo ativamente. Claro, muitos escritores preferem criar a ler conteúdo.

Dados esses desafios, novas aplicações de IA devem oferecer benefícios verdadeiramente convincentes para ganhar ampla aceitação do usuário.

Meras economias incrementais de tempo, por exemplo, na faixa de 10-30%, não são um incentivo suficiente para adotar a aplicação. Isso decorre de nossa resistência inata a mudar hábitos estabelecidos. Para superar essa inércia, os ganhos de eficiência precisam ser transformadores – não apenas melhorias marginais, mas reduções múltiplas no esforço.

Além disso, é melhor ir além de apenas economizar tempo. Imagine uma aplicação que capacite os usuários a se tornarem a pessoa que sempre aspiraram ser. Por exemplo, um aplicativo alimentado por IA poderia transformar alguém com habilidades limitadas de apresentação em um influente líder de pensamento.

4. Aplicações “Inteligentemente” Integrando LLMs em Fluxos de Trabalho Familiares Estão em Demanda ✅

Aplicações verdadeiramente eficazes combinam LLMs com outros recursos para criar um ‘produto completo‘ – um conceito popularizado por Geoffrey Moore em seu livro, Crossing the Chasm. Ele apontou que apenas produtos completos que atendem às necessidades dos usuários de ponta a ponta ganham rapidamente tração entre os usuários mainstream (a maioria). Em contraste, produtos principais (ou ‘produtos genéricos’) atraem principalmente inovadores e adotantes iniciais que gostam de montar soluções completas por conta própria.

Fonte da imagem: thinkinsights.net

Criar um produto completo inteligente geralmente requer uma abordagem ‘inteligente’ para integrar capacidades de IA. Isso significa combinar perfeitamente as funcionalidades do LLM com outros recursos dentro da aplicação ou até mesmo preencher lacunas entre múltiplas aplicações.

Por exemplo, vamos considerar ferramentas de Gerenciamento de Conhecimento Pessoal (PKM) como o Obsidian. Estas são produtos principais típicos, atraindo principalmente usuários experientes em tecnologia que não se importam em mexer com plugins e integrações.

No entanto, o PKM tem um potencial mais amplo, particularmente para criadores de conteúdo e blogueiros que enfrentam o desafio permanente de gerar material novo regularmente, mesmo quando não têm inspiração para fazê-lo. Portanto, focando nesse público mais amplo, uma ferramenta PKM poderia evoluir para um produto completo incorporando recursos orientados por IA. Imagine um sistema inteligente que analisa sua base de conhecimento pessoal, sugerindo proativamente ideias para artigos, vídeos ou postagens em mídias sociais. Em seguida, a ferramenta poderia se engajar em uma colaboração com você para gerar o material completo e polido.

  • Certamente, alguns usuários poderiam alcançar resultados semelhantes integrando sua base de conhecimento com soluções de IA universais como TextCortex ou NotebookLM. No entanto, essa abordagem DIY fica aquém de um produto completo.
  • Tais soluções muitas vezes se mostram complicadas: você está adicionando conhecimento à sua base em um lugar enquanto obtém insights em outro.
  • Além disso, tais configurações geralmente requerem consultas de texto – um processo demorado com alta carga cognitiva. Em contraste, um aplicativo bem projetado poderia acionar insights com o apertar de um botão, em uma programação ou com base em eventos específicos. Esse tipo de design de UX não requer muito esforço mental.

Assim, simplicidade, facilidade de uso e completude do produto são fatores cruciais para atravessar o ‘abismo’ entre os primeiros adotantes e o mercado mainstream. Esses critérios podem ser atendidos integrando capacidades de LLM em um produto que os usuários já conhecem e confiam.

No entanto, nem toda solução integrada faz sentido. Acredito que as integrações de IA “inteligentes” mais bem-sucedidas são aquelas que se misturam perfeitamente aos fluxos de trabalho existentes, exigindo que os usuários não façam nada novo para se beneficiar das capacidades de IA. Isso significa nenhum novo botão para pressionar, nenhuma nova opção para selecionar – a IA simplesmente melhora a experiência atual do usuário.

  1. Como um bom exemplo, vamos considerar um aplicativo educacional onde os usuários simplesmente clicam em um botão “Próximo” familiar para passar para o próximo tópico ou tarefa. Nos bastidores, essa ação pode ocasionalmente acionar conteúdo ou tarefas personalizadas geradas por IA. Os alunos podem nem perceber isso, mas ficam felizes com o quanto o curso atende às suas necessidades.
  2. Em contraste, há um anti-padrão generalizado de integração de IA: o assistente de chat autônomo que aparece em um canto da interface do aplicativo com quase nenhuma relação com o aplicativo principal. Embora aparentemente útil, tal recurso não cria uma vantagem competitiva, ou seja, não pode se tornar um fator decisivo na seleção do produto.
  3. E aqui está outro exemplo de uma solução integrada com IA que é melhor que a 2ª, mas ainda pior que a 1ª, se olharmos para a adoção do usuário. As ações de IA são frequentemente integradas em aplicativos existentes colocando novas opções em menus familiares. Não é uma solução perfeita, pois os usuários muitas vezes hesitam em explorar opções desconhecidas, então a taxa de adoção para esses novos recursos de IA permanece abaixo de 20-40%.

Ações de IA no menu do Notion para ilustrar o ponto #3

5. Novos Produtos de IA Generativa São Mais Adequados para B2B2C do que B2C

Vamos considerar outro cenário onde você está começando do zero, sem um produto gerador de receita existente para aprimorar com integração de LLM (como discutido anteriormente). Na minha opinião, lançar um novo produto B2C com LLM como seu recurso principal enfrenta grandes obstáculos. Aqui estão duas razões críticas entre muitas:

  1. Dados e privacidade. Os LLMs requerem dados de alta qualidade para fornecer resultados significativos. Em um contexto B2C, isso apresenta um desafio significativo. Usar dados do cliente levanta preocupações de privacidade entre muitos clientes B2C. Outra opção é usar dados fornecidos pelo desenvolvedor, e isso requer um conjunto de dados vasto e diversificado para atender às várias necessidades do usuário. Isso aumenta drasticamente os custos e a complexidade do desenvolvimento do produto.
  2. Vantagem insuperável das grandes empresas de tecnologia. Gigantes de tecnologia como Meta, Google e Apple têm uma vantagem quase imbatível no mercado B2C. Mesmo que entrem em algum nicho com produto alimentado por LLM mais tarde do que uma startup, sua base de usuários existente de centenas de milhões fornece uma enorme vantagem, e suas plataformas são onde os usuários já passam suas vidas digitais. Essa escala é impossível para startups igualarem, mesmo com enormes investimentos em marketing.

Esses desafios são significativamente mitigados em uma aplicação B2B2C bem projetada que capacita outras empresas (particularmente PMEs) a desenvolver rapidamente produtos valiosos de ponta a ponta para mercados B2C:

  1. Dados e privacidade. No B2B2C, dados de qualidade podem vir dos clientes B2B em vez de clientes B2C individuais. Essas empresas têm incentivos mais fortes para abordar preocupações de privacidade, como exploraremos mais adiante.
  2. Competição aproveitando bases de clientes existentes. Idealmente, cada cliente B2B já possui sua própria base de clientes. O papel do produto alimentado por LLM é ajudar esses clientes B2B a aumentar a lucratividade de seus clientes ou reduzir o custo de entrega do serviço.

Vale notar que produtos B2B construídos em LLMs locais também podem contornar essas questões. No entanto, soluções B2B estão além do escopo deste artigo.

Além disso, um produto B2C deve ser verdadeiramente massivo para ter sucesso, então não deve exigir que os usuários tenham qualificações específicas ou alta motivação. Isso contradiz as fraquezas típicas de aplicações baseadas em LLM, que muitas vezes trazem experiências de usuário desconhecidas e complicadas (como discutido na seção 3).

É mais fácil superar essas fraquezas quando os usuários têm motivação relativamente alta. No caso B2C, isso geralmente se aplica a apenas 10-20% dos usuários – inovadores e adotantes iniciais – tornando improvável a adoção generalizada (como discutido na seção 4).

No caso B2B2C, mais usuários potenciais são altamente motivados, já que não se trata apenas de economizar seu esforço, mas de aumentar seus lucros.

A propósito, enquanto os clientes B2B podem interagir com LLMs, os usuários finais que eles atendem ainda podem desfrutar de uma experiência de usuário familiar.

Resumo

Produtos que aproveitam LLMs podem enfrentar desafios com a qualidade da saída e inevitavelmente encontram dificuldades na avaliação da qualidade (consulte a seção 1). A viabilidade de abordar ou contornar essas questões está intimamente ligada à tolerância dos usuários a erros. Em particular, os usuários de copilotos de IA tendem a ter uma tolerância maior, então investimentos significativos no desenvolvimento de tais copilotos podem ser justificados (veja a seção 2 para detalhes).

Para desenvolvedores de produtos estabelecidos, é benéfico aumentar o valor do produto através da integração de LLM, enquanto preserva a experiência de usuário familiar. Essa abordagem permite que a funcionalidade de IA “atravesse o abismo” com sucesso e ganhe ampla adoção (explore a seção 4 para mais insights).

No entanto, manter a experiência de usuário convencional nem sempre é viável, nem é necessariamente necessário para produtos novos. Uma aplicação alimentada por LLM pode apresentar uma “interface de chat” que desafia os usuários a modificar seus hábitos. Em tais cenários:

  • A IA deve oferecer benefícios transformadores ao usuário (veja a seção 3 para mais), ou
  • O produto deve seguir o modelo B2B ou B2B2C em vez de B2C. Neste caso, os clientes B2B se tornam os principais usuários dos recursos de IA Generativa, pois incentivam suas equipes a aumentar a lucratividade (veja a seção 5).

Claro, é impossível descrever todos os fatores de sucesso e fracasso dos produtos em um único artigo, mesmo quando se restringe o escopo a uma tecnologia (LLM) e dois modelos de negócios (B2C, B2B2C).

No meu próximo artigo, explorarei fatores adicionais de sucesso para produtos de IA Generativa. O foco mudará para as nuances de competir com gigantes da indústria como OpenAI e Apple, bem como com ofertas de nicho menores. Fique inscrito para mais insights!

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *