游客发表
就在明天腾讯的全天下数字生态大会上,腾讯大模子混元终于亮相了。活居
为甚么要说终于 ?
在各方新闻看来 ,然宣除了像小米这种说不规画做大模子的上没之外 ,绝大部份大厂们根基都已经陆续上线过大模子了。写代
着实,腾讯腾讯自己也在 6 月中旬就推出了自己面向 B 端行业的大模的绝 MaaS ( Model-as-a-service ,模子即效率 )处置妄想。活居
妄想中搜罗了良多行业大模子,然宣只不外当时腾讯的上没通用大模子仍是还很怪异 。
后续的写代种种新闻、报道里,腾讯腾讯也在外部不断打磨混元大模子。大模的绝
以是活居这也让差评君对于混元的期待值 ,越来越高。
事实上一个用 “hun yuan ” 名号的 ,可是打了一整套闪电五连鞭 。
话未多少说,下面就开始新一轮大模子测试 。
本次测试以及混元同场竞技的是 ,大模子界的老学长 ChatGPT。
全部测试关键将分:老例语义清晰、重大下场清晰 、不断对于话与脚色饰演能耐、学习能耐 、代码能耐 、数学能耐 、长文总结 ,以及巨匠喜闻乐见的弱智吧问答等 8 个维度 。
这次咱们一失常态 ,把长文总结能耐的测评放在了第一位。
由于咱们让大模子总结的,便是这篇测评自己( 除了长文总结能耐部份 )。
至于能不能当成省流版 ,往下看你就懂了 。
混元的总结颇为精练,但过于精练 ,致使于我很难从这个总结患上出实用的信息 。
但当我让他睁开讲讲的时候着实还行 ,但迷惑惹是生非了 “ 长文总结 ” 这个模块。
而 ChatGPT 由于输入字数限度,被我酬谢分成了两部份输入 ,不断定这有无没影响它的总结能耐。
在回覆中,它莫名抽剥了对于自己的所有评测,致使没在总结里写出混元的数学能耐、弱智吧问允许战以及差评君的意见 ,也欠好用 。
看来,这俩大模子总结患上都没那末欠缺,想看看两家事实甚么水平,巨匠还患上子细往下看诠释。
首先咱们做的测试是老例的语义清晰下场。
下场是清晰 “ 原本谁都看不上 ,如今谁都看不上 ” 。
这句话混元清晰患上挺好,根基讲明了我对于独身这事的调侃 ,两个 “ 看不上 ” 都批注上了 。
但 ChatGPT 说的仍是很 ChatGPT ,说至多的话 ,犯最蠢的错。
他原本声名患上至关到位 ,特意是合成这句话是用幽默的方式来调侃独身 ,还带着一丝无奈神色,很低级 。
但它残缺没品出这先后两个 “ 看不上 ” 里 ,带有反转的幽默感