elasticsearch创建索引字段类型
当一个字段的内容需要被全文检索时,可以使用text
类型,支持长内容的存储,比如检索文章内容、商品信息等。该类型的字段内容在保存时会被分词器分析,并且拆分成多个词项, 然后根据拆分后的词项生成对应的索引,根据关键字检索时可能会将关键字分词,用分好的词从之前生成的索引中去匹配,进而找到对应的文档。对于text
类型的字段你可能无法通过指定文本精确的检索到。另外需要注意的是,text
类型的字段不能直接用于排序、聚合操作。这种类型的字符串也称做analyzed
字符串。
keyword
类型适用于结构化的字段,比如手机号、商品id、用户id等,默认最大长度为256。keyword
类型的字段内容不会被分词器分析、拆分,而是根据原始文本直接生成倒排索引,所以keyword
类型的字段可以直接通过原始文本精确的检索到。keyword
类型的字段可用于过滤、排序、聚合操作。这种字符串称做not-analyzed
字符串。
ES 中的date
类型默认支持如下两种格式:
strict_date_optional_time
,表示 yyyy-MM-dd'T'HH:mm:ss.SSSSSSZ 或者 yyyy-MM-dd 格式的日期
epoch_millis
,表示从 1970.1.1 零点到现在的毫秒数,
如果我们要存储类似2020-12-01 20:10:15
这种格式的日期就会有问题,我们可以在创建索引时指定字段为date
类型以及可以匹配的日期格式:
PUT blog{ "mappings": { "properties": { "publishDate":{ "type": "date", "format": "yyyy-MM-dd HH:mm:ss||yyyy-MM-dd||epoch_millis" } } }}
需要注意的是,如果不主动指定字段类型为date
,ES 默认使用text
类型去保存日期的值。
boolean
类型就简单了,有true
、false
两个值。
类型 | 取值范围 |
---|---|
byte | -2^7 ~ 2^7-1 |
short | -2^15 ~ 2^15-1 |
integer | -2^31 ~ 2^31-1 |
long | -2^63 ~ 2^63-1 |
float | 32位单精度IEEE 754浮点类型 |
double | 64位双精度IEEE 754浮点类型 |
half_float | 16位半精度IEEE 754浮点类型 |
scaled_float | 缩放类型的的浮点数 |
一般情况下,如果可以满足需求,则优先使用范围小的类型,来提高效率。
其实在 ES 中并没有数组类型,但我们却可以按数组格式来存储数据,因为 ES 中默认每个字段可以包含多个值,同时要求多个值得类型必须一致。例如可以按照如下方式指定一个字段的值为数组:
"label": [ "Elastcsearch", "7.9.3版本" ]
这个其实没什么特别的,由于 ES 中以 JSON 格式存储数据,所以一个 JSON 对象中的某个字段值可以是另一个 JSON 对象。
类型 | 技能 |
---|---|
integer_range | -2^31 ~ 2^31-1 |
long_range | -2^63 ~ 2^63-1 |
float_range | 32位单精度IEEE 754浮点类型 |
double_range | 64位双精度IEEE 754浮点类型 |
date_range | 自系统历元以来无符号64位整数范围内的毫秒数 |
ip_range | IPv4、IPv6 的一系列IP地址值 |
例如我们可以创建索引时定义一个日期范围的字段类型:
PUT blog{ "mappings": { "properties": { "reader_age_range":{ "type": "integer_range" } } }}
添加文档时可以这样指定字段的值:
"reader_age_range": { "gte": 10, "lte": 50}
最后我们通过一个完整的例子梳理一下这些字段类型,首先创建blog
索引,并指定相关字段的类型:
PUT blog{ "mappings": { "properties": { "publishDate": { "type": "date", "format": "yyyy-MM-dd HH:mm:ss||yyyy-MM-dd||epoch_millis" }, "reader_age_range": { "type": "integer_range" } } }}
然后添加一条文档数据:
POST blog/_doc{ "title": "Learn Elastcsearch", "publishDate": "2020-12-01 20:10:15", "isTop": true, "score": 4.5, "commnetNum": 50, "label": [ "Elastcsearch", "7.9.3版本" ], "author": { "name": "shehuan", "github": "https://github.com/shehuan" }, "reader_age_range": { "gte": 10, "lte": 50 }}
上边我们只指定了publishDate
和reader_age_range
字段的类型,其它的并未指定。其实在添加文档时,ES 也会根据字段的值动态的推断出它的类型,即动态映射,但这样可能出现推断不符合预期的问题,例如前边说过的日期类型,所以你可以根据实际情况选择是否主动指定字段的类型。
再使用如下请求查看一下文档字段的mapping
信息:
GET blog/_mapping?pretty
结果如下:
{ "blog" : { "mappings" : { "properties" : { "author" : { "properties" : { "github" : { "type" : "text", "fields" : { "keyword" : { "type" : "keyword", "ignore_above" : 256 } } }, "name" : { "type" : "text", "fields" : { "keyword" : { "type" : "keyword", "ignore_above" : 256 } } } } }, "commnetNum" : { "type" : "long" }, "isTop" : { "type" : "boolean" }, "label" : { "type" : "text", "fields" : { "keyword" : { "type" : "keyword", "ignore_above" : 256 } } }, "publishDate" : { "type" : "date", "format" : "yyyy-MM-dd HH:mm:ss||yyyy-MM-dd||epoch_millis" }, "reader_age_range" : { "type" : "integer_range" }, "score" : { "type" : "float" }, "title" : { "type" : "text", "fields" : { "keyword" : { "type" : "keyword", "ignore_above" : 256 } } } } } }}
由于我们未指定title
字段的类型, ES 自动将其映射成了text
类型,同时还添加了一个类型为keyword
的字段:
这意味着,我们可以使用title.keyword
的方式将title
字段当做keyword
类型去使用。
本文由:xiaoshu168.com 作者:xiaoshu发表,转载请注明来源!