千问发布法律大模型评测基准PLaw Bench
2026-04-08 03:19:44
0

AIPress.com.cn报道

2月6日,千问Qwen团队联合阿里巴巴AIData团队、晓天衡宇评测社区正式发布PLaw Bench,这是一个专门针对法律实务场景设计的大模型评测基准。与市面上常见的法律知识问答测试不同,PLaw Bench的核心目标是检验大模型在真实法律工作场景中的表现。

目前市面上的法律评测集存在两个普遍问题。一是默认案情完整、问题清晰,但真实的法律咨询往往以几句模糊的话开头,当事人可能情绪激动、表述零碎、关键细节缺失,甚至夹杂着对法律的错误理解。二是题目大多来源于司法考试或法学院期末试题,虽然容易获取,但毕竟不是真实案例,很难反映现实中的复杂情况。

PLaw Bench的做法是全流程还原法律工作场景。研究团队收集了用户咨询记录、律所实务案例和法院公开裁判文书,经过脱敏和改编处理后,设计了13类场景、850道题目和12500条评分细则。

评测分为三大任务模块。

第一个是用户理解。研究团队设计了大量经过改编的当事人陈述,其中充满情绪化表达、事实误导和关键信息缺失。测试要求模型从这些混乱的陈述中识别关键问题,并通过提问来澄清事实。从结果来看,顶尖模型得分接近80分,能有效过滤情感干扰,但也有部分模型出现关键细节遗漏和核心问题误判的情况。

第二个是案例分析。这个模块涵盖个人生活纠纷、公司治理、法律与科技、跨国法律实务等11个类别。研究团队不仅关注模型判断的对错,更聚焦其推理路径是否正确。结果显示各主流大模型得分趋于接近,但最高分未突破70分,表明当前模型在推理严谨性和逻辑闭环性上与专业法律从业者仍有差距。

第三个是文书生成。与用户理解类似,题目以当事人陈述形式展开,其中植入了不合理诉求、错误法律用语和模糊表述。模型需要站在律师视角,从混乱陈述中归纳核心事实,制定诉讼策略,最终生成起诉状或答辩状等文书。最高得分刚过70分,部分模型虽然格式规范,但存在核心事实遗漏和法律关系误判问题。

在总排名中,GPT-5系列表现强势,Gemini 3.0和Claude-sonnet-4-5紧随其后,千问Qwen3-max位居第五。但整体来看,参与测试的模型得分都在60%左右,并未出现具有碾压优势的选手。

研究团队还发现了几个有意思的现象。同一公司训练的模型往往具备相似的特长,比如Gemini系列擅长需要严谨推理的案例分析,GPT系列更擅长总结归纳但在查找法条上存在短板。在涉及中国法律咨询和文书实务时,以Qwen3-Max和DeepSeek-V3.2为代表的国产模型表现更优,对本土法律术语和咨询场景有更精准的语境感知能力。

研究团队表示,PLaw Bench的价值不仅在于提供模型排名,更希望回答一个现实问题:当把真实法律纠纷交给AI处理时,它能有效发挥作用的边界在哪里,哪些环节仍需专业法律从业者介入。

目前相关论文和项目已在arXiv和GitHub公开。

相关内容

把四个AI扔进虚拟世界,究...
记得在AI技术发展的前几年,为了检验智能体可实现的功能效果,常有类...
2026-06-04 01:41:43
博思软件:公司严格遵守相关...
证券之星消息,博思软件(300525)06月03日在投资者关系平台...
2026-06-04 01:40:37
三安光电:公司已按照有关法...
证券之星消息,三安光电(600703)06月03日在投资者关系平台...
2026-06-04 01:40:36
“崩老头”生态圈:花式“乞...
大象新闻 ,赞 15 近日,一个被互联网信息茧房封锁的词语“崩...
2026-06-04 01:40:22
黑龙江织密未成年人法律援助...
近日,黑龙江省印发《“法护青禾·援助成长”未成年人法律援助工作方案...
2026-06-04 01:40:20
福州法援:给法律援助装上“...
中新网福建新闻6月2日电 案件质量是法律援助工作的“生命线”,更是...
2026-06-04 01:40:18

热门资讯

收房发现房不存在开发商涉多起纠... 据媒体报道,13年前,沈先生在西安市三桥街道“加贝花园”买了一套房,合同约定房号为“12幢B单元34...
全省首个“AI+物业解纷”系统... 6月2日,全省首个 “人工智能+物业解纷”系统在佛山正式上线。该系统集成合同量化服务频次分解、履约双...
上海金融法院:2024-202... 上证报中国证券网讯(刘禹希 记者 刘礼文)6月3日,上海金融法院发布的《上海金融法院执行工作情况通报...
建新股份:2025年4月17日... 证券之星消息,建新股份(300107)01月21日在投资者关系平台上答复投资者关心的问题。 投资者提...
58同城曾涉及多起合同纠纷 雷达财经讯,据媒体报道,近日,沈女士正浏览58同城页面咨询维修报价,平台未经其同意便强行生成了订单,...
法官倾力化纠纷 高效履职护民生 近日,吉林市龙潭区人民法院成功化解一起机动车交通事故责任纠纷,承办法官秉持司法为民初心,以耐心和责任...
最高法:抓紧起草涉AI纠纷案件... 南都讯 记者刘嫚 发自北京 4月20日,最高人民法院召开2026年知识产权宣传周新闻发布会。最高法院...
美盈森:控股子公司金之彩公司涉... 美盈森公告,公司收购的控股子公司深圳市金之彩文化创意有限公司涉及名誉权纠纷案,一审判决后,西藏 新天...
北京互联网法院:涉未成年人网络... 中新网北京5月29日电 (陈杭 罗维佳)2021年5月至2026年5月,北京互联网法院共受理涉未成年...
卧龙区法院执结一起跨省工程款纠... 大象新闻记者 魏广宝 通讯员 姚远 5月19日上午,江苏某园林工程有限公司的代表不远千里,专程来到...