首页 > 基础资料 博客日记
使用Java进行中小学违规教育培训数据采集实践-以某城市为例
2024-09-13 01:00:07基础资料围观157次
目录
前言
时间来到2024年8月24日,时间过得很快,2024年的暑假即将结束。神兽们该归笼了,各位家长们又是辛苦的照顾两个月。在这两个月的时间中,大家一定参加过不少的教育培训,中学的也好,小学的也好。一定有很多的家长在给家里的小朋友找了很多机构进行培训。先不说培训机构的培训能力怎么样,相信大家一定很关注哪些是违规培训。以博主所在的城市为例,关于违规培训有以下的定义:
凡是在周末、寒暑假、节假日开展义务教育学科培训的机构(个人)均为违规培训;凡是没有办学许可证的开展校外培训的机构均为违规培训机构。校外培训机构一次性不得收取超过三个月或60个课时的费用,非学科类培训机构一次性收费不得超过5000元。请广大家长知晓,如遇到违规培训或者违规收费,可以进行投诉举报。
根据市教育局的通知和工作要求,在今年整个暑假期间,监管不松懈!暑假以来,全市各区县(市)共出动多次,拆除违规广告牌若干处,下发停办或者整改通知书若干份。共查处违规培训行为,其中隐形变异学科培训25起,无证非学科类培训14起,有证机构违规办学2起。希望我们广大的家长在挑选培训机构的时候,可以选择正规的机构,不仅保证我们的培训质量,同时还可能引起财产的损失。
作为一名地理信息从业者,我们可以将这些违规商家的信息搜集起来,可以整理成一个信息的黄页,在家长需要进行信息查询的时候,就知道这些机构是需要注意的。这也是为人民服务了,当然,有教育需求的地方才会有较多的培训结构。因此,通过我们的地址编码,将地名地址转换成空间位置,我们进而可以分析出,该城市的教培空间分布模式,掌握教育分布情况。也可以优化相应的教育配套,引导更优质的教育培训机构入驻,为家长和学生提供优质的教育需求。
本文以Java语言为例,将市教育局发布的违规培训名单进行集中采集,将数据集中存储。可以将这些数据进行统一分析,为下一步的空间分析和使用分布模型的建立,甚至后续的空间图谱构建奠定一个坚实的基础。通过本文,您将掌握如何进行数据的高效写入,同时进行地理编码的转换,以及相关空间表的设计。
一、违规教育信息
首先我们来介绍一下市教育局公布的违规教育信息,这里的数据来源于长沙晚报掌上长沙,41起!长沙通报暑期第二批违规培训名单。大家可以看到这是8月7日公布的一个名单。
1、内容管理
上面的表格仅展示了隐形变异学科培训列表,在表格中包含了机构名称、机构地址、备注信息等重要信息。请注意,上面的信息是存储在图片的表格中,因此我们不能直接的使用抓取工具来进行的获取。当然,在上面这种信息量不是很多的情况下,我们可以直接进行人工手动录入,毕竟数据量也是有限。本文呢,暂时用这种手工处理的模式。更加智能的方式是进行OCR识别,当然这里的OCR识别,需要识别出表格,而不是按照文本的顺序按空格输出,这样拿到的数据也是不符合需要的。要实现这种表格的识别,得加上OpenCV等组件进行学习或者深度学习来识别表格外框,再结合COR的外框来进行精准识别。关于利用OpenCV来进行表格识别的内容,暂且不表。
2、转换后的内容
在明确数据的采集之后,我们可以利用微信或者一些在线工具,把下载的图片进行在线识别,将数据转换成Excel,也可以一行行的录入相关数据。最后可以得到下面的Excel表格。
序号 | 名称 | 地址 | 备注 | 时间 | 类型 | 来源 |
1 | 唐* | 湘江新区奥克斯中央公馆9栋308房 | 2024-08-07 | 隐形变异学科培训 | 长沙晚报 | |
2 | 王*源 | 湘江新区水岸御园12栋3001 | 2024-08-07 | 隐形变异学科培训 | 长沙晚报 | |
3 | 宏科教育(郑**) | 湘江新区长房时代城5栋1001、1005 | 2024-08-07 | 隐形变异学科培训 | 长沙晚报 | |
4 | 刘*爱 | 湘江新区合能璞丽10栋204、205 | 2024-08-07 | 隐形变异学科培训 | 长沙晚报 | |
5 | 100分之道(丁*) | 湘江新区金茂悦商铺10-114 | 2024-08-07 | 隐形变异学科培训 | 长沙晚报 | |
6 | 宏科教育(郑**) | 湘江新区钰龙一期1栋1单元1502 | 2024-08-07 | 隐形变异学科培训 | 长沙晚报 | |
7 | 幸福成长教育(聂*) | 湘江新区德润园商业街9栋2楼 | 2024-08-07 | 隐形变异学科培训 | 长沙晚报 | |
8 | 尹*骥 | 湘江新区望月湖小区9片17栋1单元104 | 2024-08-07 | 隐形变异学科培训 | 长沙晚报 | |
9 | 彭* | 芙蓉区芙蓉路中隆国际大厦905号 | 2024-08-07 | 隐形变异学科培训 | 长沙晚报 | |
10 | 华斯优学(吴**) | 芙蓉区荷花园街道蔚蓝天空大厦6楼左侧 | 以托管机构名义变相开展学科培训 | 2024-08-07 | 隐形变异学科培训 | 长沙晚报 |
11 | 尹*妮 | 芙蓉区荷花园街道蔚蓝天空大厦6楼左侧 | 个人租用华斯优学场地变相开展学科培训 | 2024-08-07 | 隐形变异学科培训 | 长沙晚报 |
12 | 刘*艳 | 天心区君尚嘉筑2栋903 | 2024-08-07 | 隐形变异学科培训 | 长沙晚报 | |
13 | 陈*杰 | 天心区汇金国际银座509 | 2024-08-07 | 隐形变异学科培训 | 长沙晚报 | |
14 | 廖* | 天心区汇金国际银座2710 | 2024-08-07 | 隐形变异学科培训 | 长沙晚报 | |
15 | 慧眼物理(王*) | 开福区伍家岭街道红色商贸城E4栋二楼左边户 | 2024-08-07 | 隐形变异学科培训 | 长沙晚报 | |
16 | 无名 | 雨花区侯家塘街道东尚一品A栋1502房 | 2024-08-07 | 隐形变异学科培训 | 长沙晚报 | |
17 | 陆*雄 | 雨花区左家塘街道鸿铭中心K座501、502 | 2024-08-07 | 隐形变异学科培训 | 长沙晚报 | |
18 | 闪光教育(李*) | 雨花区洞井街道鄱阳佳郡3栋1单元302、502房 | 2024-08-07 | 隐形变异学科培训 | 长沙晚报 | |
19 | 莘莘教育(匡**) | 雨花区井湾子街道万科金色麦田3栋1604-1605室 | 2024-08-07 | 隐形变异学科培训 | 长沙晚报 | |
20 | 尹*里 | 雨花区井湾子街道万科金色麦田3栋1609-1610室 | 2024-08-07 | 隐形变异学科培训 | 长沙晚报 | |
21 | 长沙瀚铭智能科技有限公司 | 雨花区井湾子街道号万科金色麦田商业4栋221房 | 组织介绍上门家教变相开展学科培训 | 2024-08-07 | 隐形变异学科培训 | 长沙晚报 |
22 | 李*民 | 浏阳市葛家镇葛家园村台上组11号一楼 | 2024-08-07 | 隐形变异学科培训 | 长沙晚报 | |
23 | 余* | 浏阳市荷花街道新月半岛E2栋2单元103A | 2024-08-07 | 隐形变异学科培训 | 长沙晚报 | |
24 | 胡*雨 | 浏阳市永安镇永新村桂花苑5栋5楼 | 2024-08-07 | 隐形变异学科培训 | 长沙晚报 | |
25 | 黄*平 | 浏阳市集里街道东方新天地B栋一单元1003室 | 2024-08-07 | 隐形变异学科培训 | 长沙晚报 | |
26 | 准者联盟少儿篮球培训(龚*) | 湘江新区枫林三路741号骑龙花园 | 2024-08-07 | 无证非学科类培训 | 长沙晚报 | |
27 | 青蒙艺术(郭**) | 湘江新区金山桥街道元拓秀街S5栋324 | 2024-08-07 | 无证非学科类培训 | 长沙晚报 | |
28 | 湖南全华体育发展有限公司 | 芙蓉区东岸街道天园假日小区羽毛球馆三楼 | 2024-08-07 | 无证非学科类培训 | 长沙晚报 | |
29 | 劲狮学堂(刘*) | 开福区四方坪街道左岸春天会所一楼 | 2024-08-07 | 无证非学科类培训 | 长沙晚报 | |
30 | 柯科书画(高*) | 开福区四方坪街道万富汇银座1324室 | 2024-08-07 | 无证非学科类培训 | 长沙晚报 | |
31 | 菲菲舞蹈(龙**) | 开福区青竹湖街道水映加州运动会所2楼 | 2024-08-07 | 无证非学科类培训 | 长沙晚报 | |
32 | 长沙雅田教育咨询有限公司 | 开福区芙蓉北路街道芙蓉北路和凤亭路交汇处西南角 | 2024-08-07 | 无证非学科类培训 | 长沙晚报 | |
33 | 美美希舞蹈(蔡*) | 开福区芙蓉北路街道富湾际5栋2001室 | 2024-08-07 | 无证非学科类培训 | 长沙晚报 | |
34 | mozare琴行(黄*) | 开福区洪山街道恒大雅苑7-9栋120-121 | 2024-08-07 | 无证非学科类培训 | 长沙晚报 | |
35 | 优优钢琴(庞*) | 开福区洪山街道月湖兰庭5栋2单元16楼 | 2024-08-07 | 无证非学科类培训 | 长沙晚报 | |
36 | 长沙市雨花区半音阶乐器经营部 | 雨花区古曲南路199号花中城20-106 | 2024-08-07 | 无证非学科类培训 | 长沙晚报 | |
37 | 长沙县星沙晨艺希工艺美术品店 | 长沙县星沙街道开元东路深业睿城三期G3栋13楼 | 2024-08-07 | 无证非学科类培训 | 长沙晚报 | |
38 | 长沙县墨绿红画室 | 长沙县泉塘街道康桥长郡1栋201 | 2024-08-07 | 无证非学科类培训 | 长沙晚报 | |
39 | 彭* | 浏阳市葛家镇葛家园村马家湾137号二楼 | 2024-08-07 | 无证非学科类培训 | 长沙晚报 | |
40 | 浏阳市优而尚学培训学校 | 浏阳市优而尚学培训学校 | 高中学科类培训机构超范围对义务教育学生进行学科类培训 | 2024-08-07 | 有证机构违规办学 | 长沙晚报 |
41 | 浏阳市快乐嘟嘟培训中心有限公司 | 浏阳市快乐嘟嘟培训中心有限公司 | 非学科类培训机构超范围对义务教育学生进行学科培训 | 2024-08-07 | 有证机构违规办学 | 长沙晚报 |
在拿到上面的数据之后,我们就可以实现相关的数据存储,为了在下一步进行空间热力图和空间分布的查看,我们需要将这些拿到的中文地址转换成经纬度坐标,然后存储到数据库中。
二、数据库设计
在明确了元数据的各项指标之后,我们就可以进行存储的表设计,这里我们采用PostGIS来存储,将直接存储上面采集到的元数据信息,同时还会调用天地图的相关接口,实现地理编码的解析以及空间信息的存储。因此本小节来讲一下数据库的设计。
1、空间数据库
这是上述业务表的字段信息,其DDL语句和索引的设定如下SQL所示,大家可以直接复制使用:
CREATE TABLE "public"."biz_violation_training" (
"id" int8 NOT NULL,
"name" varchar(255) COLLATE "pg_catalog"."default" NOT NULL,
"address" varchar(512) COLLATE "pg_catalog"."default" NOT NULL,
"remark" varchar(255) COLLATE "pg_catalog"."default",
"publish_date" timestamp(6) NOT NULL,
"type" varchar(128) COLLATE "pg_catalog"."default",
"source" varchar(64) COLLATE "pg_catalog"."default",
"lat" varchar(32) COLLATE "pg_catalog"."default",
"lon" varchar(32) COLLATE "pg_catalog"."default",
"geom" "public"."geometry",
"create_by" int8,
"create_time" timestamp(6),
"update_by" int8,
"update_time" timestamp(6),
CONSTRAINT "pk_biz_violation_training" PRIMARY KEY ("id")
);
CREATE INDEX "idx_biz_violation_training_sour" ON "public"."biz_violation_training" USING btree (
"source" COLLATE "pg_catalog"."default" "pg_catalog"."text_ops" ASC NULLS LAST
);
CREATE INDEX "idx_biz_violation_training_type" ON "public"."biz_violation_training" USING btree (
"type" COLLATE "pg_catalog"."default" "pg_catalog"."text_ops" ASC NULLS LAST
);
CREATE INDEX "idx_biz_violation_traning_geom" ON "public"."biz_violation_training" USING gist (
"geom" "public"."gist_geometry_ops_2d"
);
COMMENT ON COLUMN "public"."biz_violation_training"."id" IS '主键';
COMMENT ON COLUMN "public"."biz_violation_training"."name" IS '机构名称';
COMMENT ON COLUMN "public"."biz_violation_training"."address" IS '地址';
COMMENT ON COLUMN "public"."biz_violation_training"."remark" IS '备注';
COMMENT ON COLUMN "public"."biz_violation_training"."publish_date" IS '发布时间';
COMMENT ON COLUMN "public"."biz_violation_training"."type" IS '类型';
COMMENT ON COLUMN "public"."biz_violation_training"."source" IS '来源';
COMMENT ON COLUMN "public"."biz_violation_training"."lat" IS '纬度';
COMMENT ON COLUMN "public"."biz_violation_training"."lon" IS '经度';
COMMENT ON COLUMN "public"."biz_violation_training"."geom" IS '位置';
COMMENT ON COLUMN "public"."biz_violation_training"."create_by" IS '创建人';
COMMENT ON COLUMN "public"."biz_violation_training"."create_time" IS '创建时间';
COMMENT ON COLUMN "public"."biz_violation_training"."update_by" IS '更新人';
COMMENT ON COLUMN "public"."biz_violation_training"."update_time" IS '更新时间';
三、字符地址位置转换空间信息
在了解数据源,还有空间数据表的相关设计之后,我们要实现从Excel数据表中,将信息表格提取出来,然后调用天地图的API接口将地址转换成坐标,最后见Geometry信息,从而实现信息的保存。
1、实现时序图
下面使用转换时序图来重点讲解一下真个过程是如何实现。首先讲解时序图,然后将给出重点步骤的代码实现。
1.1、首先使用java的file对象将Excel表格读取到内存中,等待处理。
1.2、使用ExcelUtil来进行数据的读取。
1.3、实际将表格导入的内存中,然后将结果转为List。
1.4、将地名地址信息发送给后台,将地名地址传给天地图。
1.5、将点地图返回的数据进行JSON解析,转换为Java对象,从而获取Location等地址信息。
1.6、根据返回的地址信息构建Geometry的字段信息。
1.7、将Excel表格中的数据进行重新赋值。
1.8、将数据进行批量插入到数据库中。
1.9、完成。
以上就是大致的处理的流程。
2、后台实体类的设计与实现
后台实体类的模型设计很重要,为了在数据中可以直观的看到经纬度信息,因此在数据库表格中设计两个字段,用来存储经纬度信息。
package com.yelang.project.education.domain;
import java.io.Serializable;
import java.util.Date;
import com.baomidou.mybatisplus.annotation.TableField;
import com.baomidou.mybatisplus.annotation.TableId;
import com.baomidou.mybatisplus.annotation.TableName;
import com.yelang.framework.aspectj.lang.annotation.Excel;
import com.yelang.framework.handler.PgGeometryTypeHandler;
import com.yelang.framework.web.domain.BaseEntity;
import lombok.AllArgsConstructor;
import lombok.Getter;
import lombok.NoArgsConstructor;
import lombok.Setter;
import lombok.ToString;
/**
* 违规办学培训实体类
* @author 夜郎king
*/
@TableName(value ="biz_violation_training",autoResultMap = true)
@NoArgsConstructor
@AllArgsConstructor
@Setter
@Getter
@ToString
public class ViolationTraining extends BaseEntity implements Serializable{
private static final long serialVersionUID = 879828674200308872L;
@TableId(value="id")
private Long id;
@Excel(name = "序号")
@TableField(exist = false)
private String index;
@Excel(name = "名称")
private String name;
@Excel(name = "地址")
private String address;
@Excel(name = "备注")
private String remark;
@Excel(name = "时间",dateFormat = "yyyy-MM-dd")
@TableField(value= "publish_date")
private Date date;
@Excel(name = "类型")
private String type;
@Excel(name = "来源")
private String source;
private String lat;//经度
private String lon;//纬度
@TableField(typeHandler = PgGeometryTypeHandler.class)
private String geom;
@TableField(exist=false)
private String geomJson;
}
3、数据持久化操作
定义好数据表结构和实体类代码后,我们要将数据进行持久化。这里持久化使用开源的Mybatis-plus操作。同时需要注意的是,在进行数据插入的时候,有自己来主动构建空间信息。
/**
* 读取excel信息
*/
@Test
public void readExcelData() {
try {
File file = new File("C:/Users/Administrator/Desktop/违规培训.xlsx");
FileInputStream fis = new FileInputStream(file);
ExcelUtil<ViolationTraining> util = new ExcelUtil<ViolationTraining>(ViolationTraining.class);
List<ViolationTraining> dataList = util.importExcel(fis);
for(ViolationTraining base : dataList) {
TdtAddressInfo info = this.GetLocationByTDT(base.getAddress());
System.out.println(info);
System.out.println("******************************************************");
if(null != info.getLocation()) {
String lat = String.valueOf(info.getLocation().getLat());
String lon = String.valueOf(info.getLocation().getLon());
base.setLat(lat);
base.setLon(lon);
String geom = "SRID=" + 4326 +";POINT (" + lon+ " " + lat + ")";//拼接srid,实现动态写入
base.setGeom(geom);
}
Thread.sleep(3500);
}
if(dataList.size() > 0) {
vtService.saveBatch(dataList, 200);
}
} catch (FileNotFoundException e) {
e.printStackTrace();
} catch (Exception e) {
e.printStackTrace();
}
}
这里需要注意的话,为了保证不让天地图的后台进行访问限制,我们将每次访问后将暂停3.5秒钟。执行上述的代码后可以看到控制台在输出以下信息:
ViolationTraining(id=null, index=9, name=彭*, address=芙蓉区芙蓉路中隆国际大厦905号, remark=, date=Wed Aug 07 00:00:00 CST 2024, type=隐形变异学科培训, source=长沙晚报, lat=null, lon=null, geom=null, geomJson=null)
https://api.tianditu.gov.cn/geocoder?ds=%7B'keyWord':'芙蓉区芙蓉路中隆国际大厦905号'%7D&tk=473af7dc18cafb6b993616a0ce8e1ead
TdtAddressInfo(msg=ok, status=0, searchVersion=6.4.9V, location=TdtLocation(lon=112.97597, lat=28.19909, level=兴趣点, typeRound=null, score=76.0))
*************************************************************
ViolationTraining(id=null, index=10, name=华斯优学(吴**), address=芙蓉区荷花园街道蔚蓝天空大厦6楼左侧, remark=以托管机构名义变相开展学科培训, date=Wed Aug 07 00:00:00 CST 2024, type=隐形变异学科培训, source=长沙晚报, lat=null, lon=null, geom=null, geomJson=null)
https://api.tianditu.gov.cn/geocoder?ds=%7B'keyWord':'芙蓉区荷花园街道蔚蓝天空大厦6楼左侧'%7D&tk=473af7dc18cafb6b993616a0ce8e1ead
TdtAddressInfo(msg=ok, status=0, searchVersion=6.4.9V, location=TdtLocation(lon=113.015237, lat=28.201385, level=乡镇街道, typeRound=null, score=50.0))
*************************************************************
ViolationTraining(id=null, index=11, name=尹*妮, address=芙蓉区荷花园街道蔚蓝天空大厦6楼左侧, remark=个人租用华斯优学场地变相开展学科培训, date=Wed Aug 07 00:00:00 CST 2024, type=隐形变异学科培训, source=长沙晚报, lat=null, lon=null, geom=null, geomJson=null)
https://api.tianditu.gov.cn/geocoder?ds=%7B'keyWord':'芙蓉区荷花园街道蔚蓝天空大厦6楼左侧'%7D&tk=473af7dc18cafb6b993616a0ce8e1ead
TdtAddressInfo(msg=ok, status=0, searchVersion=6.4.9V, location=TdtLocation(lon=113.015237, lat=28.201385, level=乡镇街道, typeRound=null, score=50.0))
*************************************************************
说明已经顺利的从后台获取相关信息,程序运行正常。
最后,我们在数据库中来看一下数据是否已经成功持久化了。执行以下的sql语句:
select * from biz_violation_training;
这样可以客户端可以看到以下的执行结果:
到此,说明我们已经成功的把Excel转换成空间数据并持久化到PostGIS中。
四、总结
本文以Java语言为例,将市教育局发布的违规培训名单进行集中采集,将数据集中存储。可以将这些数据进行统一分析,为下一步的空间分析和使用分布模型的建立,甚至后续的空间图谱构建奠定一个坚实的基础。通过本文,您将掌握如何进行数据的高效写入,同时进行地理编码的转换,以及相关空间表的设计。行文仓促,难免有许多的不足之处,针对不足,恳请各位专家朋友在评论区批评指正,不胜感激。
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:jacktools123@163.com进行投诉反馈,一经查实,立即删除!
标签: