技术Q&A

为什么我的AI感觉笨笨的？

本项目无法对AI的智能水平负责，只能帮助您选择当前综合性能最优的解决方案。如果您已经看过本项目在Bilibili的视频，那么直播版与开源版代码逻辑一致，只有支持的API接口不一致。有条件者可以将config/api.py中的CORE_URL/CORE_API_KEY/CORE_MODEL替换成OpenAI的GPT-Realtime版本，即可将模型从Qwen升级为GPT-Realtime。也可以等待阿里或其他国内厂家的升级与跟进。

技术的进步不在一朝一夕，请耐心守候AI的成长！

本项目支持哪些语言模型？

本项目依赖于实时全模态API。直播版本使用的是Gemini Live API，开源版本使用的是OpenAI Realtime API。Gemini Live接口具有更好的效果，但目前只支持谷歌。OpenAI Realtime接口规范目前有OpenAI，阿里云，智谱，阶跃星辰四家服务商支持，未来可能兼容更多模型。开源版支持Step-Audio,Qwen-Omni-Realtime,GLM-Realtime和GPT-Realtime四个模型。

已知其他支持实时模式但不兼容OpenAI Realtime的模型：(字节跳动)豆包实时语音交互，(商汤)SenseNova V6 Omni，(科大讯飞)星火认知超拟人