麻省理工学院科研团队将生成式人工智能应用于数据库创新

一种新工具使数据库用户可以更容易地对表格数据执行复杂的统计分析,而不需要知道幕后发生了什么。 GenSQL是一种用于数据库的生成式人工智能系统,它...

一种新工具使数据库用户可以更容易地对表格数据执行复杂的统计分析,而不需要知道幕后发生了什么。

GenSQL是一种用于数据库的生成式人工智能系统,它可以帮助用户进行预测、检测异常、猜测缺失值、修复错误,或者只需敲击几下键盘就能生成合成数据。

例如,如果该系统用于分析一位一直患有高血压的患者的医疗数据,它可以捕捉到该特定患者的血压读数较低,但在其他情况下则在正常范围内。

GenSQL自动集成了表格数据集和生成概率AI模型,可以考虑不确定性并根据新数据调整决策。

此外,GenSQL可以用来生成和分析模拟数据库中真实数据的合成数据。这在不能共享敏感数据的情况下特别有用,比如患者健康记录,或者真实数据很少。

这个新工具构建在SQL之上,SQL是一种用于创建和操作数据库的编程语言,于20世纪70年代末推出,被全球数百万开发人员使用。

从历史上看,SQL教会了商业世界计算机可以做什么。他们不需要编写自定义程序,他们只需要用高级语言对数据库提出问题。“我们认为,当我们从仅仅查询数据转向询问模型和数据问题时,我们将需要一种类似的语言来教授人们可以向具有数据概率模型的计算机提出的连贯问题,”Vikash Mansinghka说,他是一篇介绍GenSQL的论文的高级作者,也是麻省理工学院脑与认知科学系概率计算项目的首席研究科学家和负责人。

当研究人员将GenSQL与流行的基于人工智能的数据分析方法进行比较时,他们发现它不仅更快,而且产生的结果也更准确。重要的是,GenSQL使用的概率模型是可解释的,因此用户可以阅读和编辑它们。

“仅仅通过使用一些简单的统计规则来查看数据并试图找到一些有意义的模式,可能会错过重要的相互作用。您确实希望捕获模型中变量之间的相关性和依赖性,这可能非常复杂。有了GenSQL,我们希望让大量用户能够查询他们的数据和模型,而不必知道所有的细节,”该研究的主要作者、脑与认知科学系的研究科学家、概率计算项目成员马修·霍特补充道。

麻省理工学院的研究生马丁·加瓦米和亚历山大·卢在论文中加入了他们;研究科学家卡梅隆·弗里尔(Cameron Freer);Digital Garage的Ulrich Schaechtel和Zane Shelby;麻省理工学院电子工程与计算机科学系教授、计算机科学与人工智能实验室(CSAIL)成员Martin Rinard;以及卡内基梅隆大学助理教授费拉斯·萨阿德。这项研究最近在ACM编程语言设计与实现会议上发表。

结合模型和数据库

SQL是结构化查询语言(structured query language)的缩写,是一种用于存储和操作数据库信息的编程语言。在SQL中,人们可以使用关键字询问有关数据的问题,例如对数据库记录进行求和、过滤或分组。

然而,查询模型可以提供更深入的见解,因为模型可以捕获数据对个人意味着什么。例如,一名女性开发人员想知道自己的工资是否过低,她可能更感兴趣的是工资数据对她个人的意义,而不是数据库记录的趋势。

研究人员注意到,SQL并没有提供一种有效的方法来整合概率人工智能模型,但与此同时,使用概率模型进行推断的方法不支持复杂的数据库查询。

他们建立了GenSQL来填补这一空白,使人们能够使用一种简单而强大的正式编程语言来查询数据集和概率模型。

用户上传自己的数据和概率模型,系统自动进行整合。然后,她可以对数据运行查询,这些查询也从后台运行的概率模型中获得输入。这不仅支持更复杂的查询,还可以提供更准确的答案。

例如,GenSQL中的查询可能是这样的,“来自西雅图的开发人员知道编程语言Rust的可能性有多大?”仅仅查看数据库中列之间的相关性可能会错过微妙的依赖关系。结合概率模型可以捕获更复杂的交互。

此外,GenSQL使用的概率模型是可审计的,因此人们可以看到模型用于决策的数据。此外,这些模型提供了校准不确定性的措施,以及每个答案。

例如,有了这种校准的不确定性,如果有人向模型查询来自数据集中代表性不足的少数群体的患者的不同癌症治疗的预测结果,GenSQL会告诉用户它是不确定的,以及它有多不确定,而不是过于自信地倡导错误的治疗。

更快,更准确的结果

为了评估GenSQL,研究人员将他们的系统与使用神经网络的流行基线方法进行了比较。GenSQL比这些方法快1.7到6.8倍,在几毫秒内执行大多数查询,同时提供更准确的结果。

他们还在两个案例研究中应用了GenSQL:一个案例中,该系统识别了错误标记的临床试验数据,另一个案例中,它生成了准确的合成数据,捕捉了基因组学中的复杂关系。

接下来,研究人员希望更广泛地应用GenSQL来进行大规模的人口建模。有了GenSQL,他们可以生成合成数据来推断健康和工资等信息,同时控制在分析中使用的信息。

他们还希望通过向系统中添加新的优化和自动化,使GenSQL更易于使用,功能更强大。从长远来看,研究人员希望用户能够在GenSQL中进行自然语言查询。他们的目标是最终开发出一个类似chatgpt的人工智能专家,人们可以与之谈论任何数据库,它的答案基于GenSQL查询。

这项研究部分由美国国防高级研究计划局(DARPA)、谷歌和西格尔家族基金会资助。

本文来自作者[admin]投稿,不代表tzezi号立场,如若转载,请注明出处:https://wap.tzezi.cn/wiki/202507-865.html

(14)

文章推荐

  • 武装警察封锁苏格兰街道,因“持枪男子”事件引发关注

    苏格兰小镇一条街上出现武装警察,此前有报道称一名“持枪男子”。7月25日(星期四)上午9点10分左右,在接到报警后,警方赶到了福尔柯克Hallglen地区的Nairn法院。警方对该地区进行了搜查,并逮捕了一名与该事件有关的31岁男子。

    2025年06月25日
    9
  • 马六甲警方:逮捕嫌疑人助力破获马六甲、森美兰北部及柔佛20起加油站盗窃案件

    马六甲,8月18日——警方逮捕了一名男子,据信他是马六甲、森美兰州和柔佛一系列加油站盗窃案的主谋,造成约5万令吉的损失。马六甲登加警察局局长克里斯托弗·帕蒂特说,逮捕这名32岁的男子已经导致这三个州解决了20起此类案件。“嫌疑人是一名快递员,根据马六

    2025年06月28日
    11
  • 对车前草在氮浸出过程中的作用提出新质疑

      车前草已被推广为解决农场氮浸出的解决方案。一项新的研究推翻了一项研究,该研究认为常见的牧草车前草可以减轻农场的氮淋失。发表在《新西兰农业研究杂志》上的科学评论调查了15年来对牧草和牧草物种的同行评议研究。在过去的十年里,

    2025年07月03日
    12
  • 调查揭示:麦当劳店面长期未关注“现代奴隶制”问题

      据报道,英国一家麦当劳多年来一直没有发现现代奴隶制的迹象,而一个人口贩运团伙却强迫受害者在这家汉堡店以及附近的一家面包工厂工作。据英国广播公司报道,捷克一个家族犯罪团伙的6名成员因强迫16名受害者每周工作长达100小时而被判有罪,尽管该团伙将他们的现金装进

    2025年07月07日
    10
  • 黄金海岸的隐藏宝地,许多人却选择忽视

    我对面的一栋房子昨天卖了一千二百五十万美元。虽然它在海滩上,但看起来没什么特别的。买家来自邦迪…当然。让我吃惊的是,我一点也不吃惊。我住的郊区——棕榈滩(不是那个棕榈滩)——是realestate.com.au网站上搜索最多的澳大利亚郊区之一。自2019冠状病毒病以来

    2025年07月12日
    13
  • 泰国校车突发火灾,或致25人遇难

      曼谷(路透社)-周二,泰国首都曼谷郊区一辆载有学生和教师的校车发生火灾,导致约25人遇难,16名乘客被送往医院接受治疗,政府表示。警方尚未确认具体的伤亡人数,但内政部长阿努廷·查尼维拉库(AnutinCharnvirakul)向记者表示,初步估计约有25人

    2025年07月17日
    12
  • 在政府警告下,约500名澳大利亚人计划从黎巴嫩紧急撤离

    周六,多达500名澳大利亚人及其近亲将搭乘两架包机离开贝鲁特。在以色列地面入侵黎巴嫩南部后,政府加大了将澳大利亚公民驱逐出境的努力。首架飞机预计将于当地时间上午11点30分(美国东部时间下午6点30分)从黎巴嫩首都起飞,降落在塞浦路斯。周二和周三,两架澳航(Qanta

    2025年07月19日
    10
  • 春季米德音乐节:探索海湾周边的维京文化之旅

    西雅图——如果你不喝啤酒,你可能会问——蜜酒是什么?这是一种独特的酒精饮料,由发酵的蜂蜜、水和酵母制成。它在维京文化中扮演着重要的角色。这使得巴拉德的skatal啤酒大厅成为春季米德酒节的完美场所!skatalbeerHal总经理科迪·怀特说:“我们想让他们觉得自

    2025年07月23日
    9
  • 加州立法保障脑部数据隐私

    旧金山:一项新的加州法律将消费者隐私保护扩展到通过植入物或可穿戴设备收集的脑电波数据。上周末,加州州长加文·纽森(GavinNewsom)签署了一项法案,修改了《加州消费者隐私法》(CaliforniaConsumerPrivacyAct),将“神经数据”

    2025年08月02日
    12
  • 神秘鱼类重返英国海域,部长们为何急于推动捕杀?

    在过去的三周里,我一直在观看地球上最壮观的自然景观之一,就在德文郡南部。在离海岸几米远的地方,潮水一到,海里就会涌出怪物。它们可以以每小时45英里的速度行驶。它们长到2.5米(8英尺2英寸)长,600公斤重。它们把较小的鱼——在这种情况下是刀鱼和garfish——驱赶到水面上,然后

    2025年08月03日
    11

发表回复

本站作者后才能评论

评论列表(4条)

  • admin
    admin 2025年07月11日

    我是tzezi号的签约作者“admin”!

  • admin
    admin 2025年07月11日

    希望本篇文章《麻省理工学院科研团队将生成式人工智能应用于数据库创新》能对你有所帮助!

  • admin
    admin 2025年07月11日

    本站[tzezi号]内容主要涵盖:国足,欧洲杯,世界杯,篮球,欧冠,亚冠,英超,足球,综合体育

  • admin
    admin 2025年07月11日

    本文概览:一种新工具使数据库用户可以更容易地对表格数据执行复杂的统计分析,而不需要知道幕后发生了什么。 GenSQL是一种用于数据库的生成式人工智能系统,它...

    联系我们

    邮件:tzezi号@sina.com

    工作时间:周一至周五,9:30-18:30,节假日休息

    关注我们