开源SPL提升了MongoDB的计算能力
MongoDB 是一款典型的 NoSQL 数据库。其面向文档的结构使得存储和访问都便捷高效。但该数据库的计算能力相对较弱,对 MongoDB 数据进行计算,尤其是复杂计算,会比较困难。因此,需要借助具有强大计算能力的数据计算引擎来处理 MongoDB,以完成相关的计算任务。
开源的 esProc SPL 是一个专门的结构化数据计算引擎。它提供丰富的类库和全面的、与数据库无关的计算能力。SPL 具有独立的程序语法,尤其擅长处理复杂的计算。它可以帮助 MongoDB 轻松提升计算能力,完成分组和聚合、连接、子查询以及所有其他计算任务。
常规查询
在 SPL 中,实现 MongoDB 难以处理的 JOIN 操作很容易:
| 一个 | B | |
|---|---|---|
| 1 | =mongo_open("mongodb://127.0.0.1:27017/raqdb") |
连接到 MongoDB |
| 2 | =mongo_shell(A1,"c1.find()").fetch() |
从 MongoDB 获取数据 |
| 3 | =mongo_shell(A1,"c2.find()").fetch() |
|
| 4 | =A2.join(user1:user2,A3:user1:user2,output) |
执行连接 |
| 5 | >A1.close() |
与 MongoDB 的紧密连接 |
SPL 可以重用对反复参与计算的表中的数据进行处理的结果:
| 一个 | B | |
|---|---|---|
| 1 | =mongo_open("mongodb://127.0.0.1:27017/raqdb") |
|
| 2 | =mongo_shell(A1,"course.find(,{_id:0})").fetch() |
从 MongoDB 获取数据 |
| 3 | =A2.group(Sno).((avg = ~.avg(Grade), ~.select(Grade>avg))).conj() |
获取评分高于平均水平的文件 |
| 4 | >A1.close() |
在 SPL 中执行 IN 条件查询:
| 一个 | B | |
|---|---|---|
| 1 | =mongo_open("mongodb://localhost:27017/test") |
|
| 2 | =mongo_shell(A1,"orders.find(,{_id:0})") |
从 MongoDB 获取数据 |
| 3 | =mongo_shell(A1,"employee.find({STATE:'California'},{_id:0})").fetch() |
选择某些员工文件 |
| 4 | =A3.(EID).sort() |
获取 EID 字段并对其进行排序 |
| 5 | =A2.select(A4.pos@b(SELLERID)).fetch() |
执行二分查找 |
| 6 | >A1.close() |
SPL 将外键值转换为对象的技术——对象引用外键——创建了高效的外键指针:
| 一个 | B | |
|---|---|---|
| 1 | =mongo_open("mongodb://localhost:27017/local") |
|
| 2 | =mongo_shell(A1,"Progress.find({}, {_id:0})").fetch() |
获取进度数据 |
| 3 | =A2.groups(courseid; count(userId):popularityCount) |
按课程分组和计数 |
| 4 | =mongo_shell(A1,"Course.find(,{title:1})").fetch() |
获取课程数据 |
| 5 | =A3.switch(courseid,A4:_id) |
基于外键的连接 |
| 6 | =A5.new(popularityCount,courseid.title) |
创建结果集 |
| 7 | =A1.close() |
SPL以一种简单的方式实现了APPLY算法:
| 一个 | B | |
|---|---|---|
| 1 | =mongo_open("mongodb://127.0.0.1:27017/raqdb") |
|
| 2 | =mongo_shell(A1,"users.find()").fetch() |
获取用户数据 |
| 3 | =mongo_shell(A1,"workouts.find()").fetch() |
获取训练数据 |
| 4 | =A2.conj(A3.select(A2.workouts.pos(_id)).derive(A2.name)) |
从一系列训练文档中获取匹配的 _id 值 |
| 5 | >A1.close() |
SPL 执行面向集合的计算(交集、并集、差集和连接)的方式:
| 一个 | B | |
|---|---|---|
| 1 | =mongo_open("mongodb://127.0.0.1:27017/raqdb") |
|
| 2 | =mongo_shell(A1,"emp1.find()").fetch() |
|
| 3 | =mongo_shell(A1,"emp2.find()").fetch() |
|
| 4 | =[A2,A3].conj() |
序列的连接 |
| 5 | =[A2,A3].merge@ou() |
按整行比较进行并集 |
| 6 | =[A2,A3].merge@ou(_id, NAME) |
通过键值比较进行联合 |
| 7 | =[A2,A3].merge@oi() |
整行比较的交集 |
| 8 | =[A2,A3].merge@oi(_id, NAME) |
按关键值比较进行交叉分析 |
| 9 | =[A2,A3].merge@od() |
整行比较的差异 |
| 10 | =[A2,A3].merge@od(_id, NAME) |
关键值比较的差异 |
| 11 | >A1.close() |
获取 SPL 中序列中某个成员的序列号:
| 一个 | B | |
|---|---|---|
| 1 | =mongo_open("mongodb://localhost:27017/local") |
|
| 2 | =mongo_shell(A1,"users.find({name:'jim'},{name:1,friends:1,_id:0})").fetch() |
|
| 3 | =A2.friends.pos("luke") |
获取序列好友中成员的序列号 |
| 4 | =A1.close() |
在 SPL 中执行多成员集合的交集运算:
| 一个 | B | |
|---|---|---|
| 1 | [化学、生物学、数学] | 课程 |
| 2 | =mongo_open("mongodb://127.0.0.1:27017/raqdb") |
|
| 3 | =mongo_shell(A2,"student.find()").fetch() |
获取学生数据 |
| 4 | =A3.select(Lesson^A1!=[]) |
获取至少选择过一门课程的文档。 |
| 5 | =A4.new(_id, Name, ~.Lesson^A1:Lession) |
获取最终结果 |
| 6 | >A2.close() |
复杂查询 在 SPL 中获取 TopN:
| 一个 | B | |
|---|---|---|
| 1 | =mongo_open("mongodb://127.0.0.1:27017/test") |
|
| 2 | =mongo_shell(A1,"last3.find(,{_id:0};{variable:1})").fetch() |
获取最后 3 条数据并按变量排序 |
| 3 | for A2;variable =A3.top(3;-timestamp) |
获取时间戳最新的三个文档 |
| 4 | `=@ | B3` |
| 5 | =B4.minp(~.timestamp) |
获取时间戳最早的文档 |
| 6 | >mongo_close(A1) |
用 SPL 概括嵌套结构集合:
| 一个 | |
|---|---|
| 1 | =mongo_open("mongodb://127.0.0.1:27017/raqdb") |
| 2 | =mongo_shell(A1,"computer.find()").fetch() |
| 3 | =A2.new(_id:ID,income.array().sum():INCOME,output.array().sum():OUTPUT) |
| 4 | >A1.close() |
在 SPL 中合并由多个属性组成的子文档:
| 一个 | B | C | |
|---|---|---|---|
| 1 | =mongo_open("mongodb://localhost:27017/local") |
||
| 2 | =mongo_shell(A1,"c1.find(,{_id:0};{name:1})").fetch() |
||
| 3 | =create(_id, readUsers) |
创建结果表序列 | |
| 4 | `for A2;name =A4.conj(acls.read.users | acls.append.users | acls.edit.users |
| 5 | {% raw %}`=@ | A3.insert(0, A4.name, B4) | |
| 6 | =A1.close() |
在 SPL 中查询嵌套列表子文档:
| 一个 | B | |
|---|---|---|
| 1 | =mongo_open("mongodb://localhost:27017/local") |
|
| 2 | =mongo_shell(A1,"Cbettwen.find(,{_id:0})").fetch() |
|
| 3 | =A2.conj((t=~.objList.data.dataList,t.select((s=float(~.split@c1()(1)), s>6154 && s<=6155)))) |
获取符合条件的字符串 |
| 4 | =A1.close() |
SPL跨行业聚合:
| 一个 | |
|---|---|
| 1 | =mongo_open("mongodb://localhost:27017/local") |
| 2 | =mongo_shell(A1,"student.find()").fetch() |
| 3 | =A2.group(school) |
| 4 | =A3.new(school:school,~.align@a(5,sub1).(~.len()):sub1,~.align@a(5,sub2).(~.len()):sub2) |
| 5 | =A4.new(school,sub1(5):sub1-5,sub1(4):sub1-4,sub1(3):sub1-3,sub1(2):sub1-2,sub1(1):sub1-1,sub2(5):sub2-5,sub2(4):sub2-4,sub2(3):sub2-3,sub2(2):sub2-2,sub2(1):sub2-1) |
| 6 | =A1.close() |
基于SPL分段的分组:
| 一个 | B | |
|---|---|---|
| 1 | [3000,5000,7500,10000,15000] | 销售区间细分 |
| 2 | =mongo_open("mongodb://127.0.0.1:27017/raqdb") |
|
| 3 | =mongo_shell(A2,"sales.find()").fetch() |
|
| 4 | =A3.groups(A1.pseg(~.SALES):Segment;count(1): number) |
按销售额区间对数据进行分组并统计员工人数 |
| 5 | >A2.close() |
SPL 基于类的分组:
| 一个 | B | |
|---|---|---|
| 1 | =mongo_open("mongodb://127.0.0.1:27017/raqdb") |
|
| 2 | =mongo_shell(A1,"books.find()") |
|
| 3 | =A2.groups(addr,book;count(book):Count) |
分组和计数 |
| 4 | =A3.groups(addr;sum(Count):Total) |
分组与求和 |
| 5 | =A3.join(addr,A4:addr,Total) |
加入行动 |
| 6 | >A1.close() |
数据写入:在 SPL 中将数据导出为 CSV 文件:
| 一个 | B | |
|---|---|---|
| 1 | =mongo_open("mongodb://localhost:27017/raqdb") |
|
| 2 | =mongo_shell(A1,"carInfo.find(,{_id:0})") |
|
| 3 | =A2.conj((t=~,cars.car.new(t.id:id,t.cars.name, ~:car))) |
将每个汽车字段值拆分成多行 |
| 4 | =file("D:\\data.csv").export@tc(A3) |
导出为 CSV 文件 |
| 5 | >A1.close() |
SPL数据库更新(从MongoDB到MySQL):
| 一个 | B | |
|---|---|---|
| 1 | =mongo_open("mongodb://localhost:27017/raqdb") |
连接到 MongoDB |
| 2 | =mongo_shell(A1,"course.find(,{_id:0})").fetch() |
|
| 3 | =connect("myDB1") |
连接到 MySQL |
| 4 | =A3.query@x("select * from course2").keys(Sno, Cno) |
|
| 5 | >A3.update(A2:A4,course2,Sno,Cno, Grade; Sno,Cno) |
将数据更新到 MySQL 数据库 |
| 6 | >A1.close() |
SPL数据库更新(从MySQL到MongoDB):
| 一个 | B | |
|---|---|---|
| 1 | =connect("mysql") |
连接到 MySQL |
| 2 | =A1.query@x("select * from course2") |
获取 course2 表的数据 |
| 3 | =mongo_open("mongodb://localhost:27017/raqdb") |
连接到 MongoDB |
| 4 | =mongo_insert(A3, "course",A2) |
将 MySQL 表 course2 中的记录插入到 MongoDB 集合中 |
| 5 | >A3.close() |
混合计算
SPL 可以方便地在 MongoDB 和其他数据源之间进行混合计算:
| 一个 | B | |
|---|---|---|
| 1 | =mongo_open("mongodb://localhost:27017/test") |
连接到 MongoDB |
| 2 | =mongo_shell(A1,"emp.find({'$and':[{'Birthday':{'$gte':'"+string(begin)+"'}},{'Birthday':{'$lte':'"+string(end)+"'}}]},{_id:0})").fetch() |
获取指定时间间隔内的记录 |
| 3 | =A1.close() |
关闭 MongoDB 连接 |
| 4 | =myDB1.query("select * from cities") |
获取 MySQL 数据库中 cities 表的数据。 |
| 5 | =A2.switch(CityID,A4:CityID) |
基于外键的连接 |
| 6 | =A5.new(EID,Dept,CityID.CityName:CityName,Name,Gender) |
创建结果集 |
| 7 | return A6 |
返回结果集 |
SQL 支持
除了原生语法之外,SPL 还支持 SQL92 标准。您可以使用 SQL 查询 MongoDB。例如,要实现上述连接操作:
| 一个 | |
|---|---|
| 1 | =mongo_open("mongodb://127.0.0.1:27017/test") |
| 2 | =mongo_shell(A1,"c1.find()").fetch() |
| 3 | =mongo_shell@x(A1,"c2.find()").fetch() |
| 4 | $select s.* from {A2} as s left join {A3} as r on s.user1=r.user1 and s.user2=r.user2 where r.income>0.3 |
集成到应用程序中
SPL 提供标准的 JDBC/ODBC 驱动程序,方便地将 SPL 集成到应用程序中或由应用程序调用。例如,要通过 JDBC 调用 SPL 代码:
…
Class.forName("com.esproc.jdbc.InternalDriver");
Connection conn = DriverManager.getConnection("jdbc:esproc:local://");
PrepareStatement st=con.prepareStatement("call splScript(?)"); // splScript is the name of SPL script file
st.setObject(1,"California");
st.execute();
ResultSet rs = st.getResultSet();
…
凭借这些强大的功能,MongoDB 显著提升的计算能力一定会让您印象深刻。现在就来体验一下吧!
请查看 GitHub 代码库,
别忘了在代码库上给我们点个星 ⭐ 哦!