我正在尝试使用
Aerospike bulk loader使用制表符分隔文件中的数据来播种群集.
源数据如下所示:
set key segments
segment 123 10,20,30,40,50
segment 234 40,50,60,70
第三列“segments”包含逗号分隔的整数列表.
我创建了一个JSON模板:
{
"version" : "1.0",
"input_type" : "csv",
"csv_style": { "delimiter": " " , "n_columns_datafile": 3, "ignore_first_line": true}
"key": {"column_name":"key", "type": "integer"},
"set": { "column_name":"set" , "type": "string"},
"binlist": [
{"name": "segments",
"value": {"column_name": "segments", "type": "list"}
}
]
}
…然后运行装载机:
java -cp aerospike-load-1.1-jar-with-dependencies.jar com.aerospike.load.AerospikeLoad -c template.json data.tsv
当我查询aql中的记录时,它们似乎是一个字符串列表:
aql> select * from test
+--------------------------------+
| segments |
+--------------------------------+
| ["10", "20", "30", "40", "50"] |
| ["40", "50", "60", "70"] |
+--------------------------------+
我想要存储的数据是整数列表.有没有一种简单的方法可以将存储在此bin中的对象转换为整数列表(可能是Lua UDF),或者可以对批量加载器模板进行调整?
更新:
我试图通过创建一个Lua UDF来将列表从字符串转换为整数来解决这个问题:
function convert_segment_list_to_integers(rec)
for i=1, table.maxn(rec['segments']) do
rec['segments'][i] = math.floor(tonumber(rec['segments'][i]))
end
aerospike:update(rec)
end
…注册了:
aql> register module 'convert_segment_list_to_integers.lua'
…然后尝试对我的集执行:
aql> execute convert_segment_list_to_integers.convert_segment_list_to_integers() on test.segment
我启用了一些更详细的日志记录,并注意到UDF正在抛出错误.显然,它期待一个表,并通过userdata:
Dec 04 2015 23:23:34 GMT: DEBUG (udf): (udf_rw.c:send_result:527) FAILURE when calling convert_segment_list_to_integers convert_segment_list_to_integers ...rospike/usr/udf/lua/convert_segment_list_to_integers.lua:2: bad argument #1 to 'maxn' (table expected, got userdata)
Dec 04 2015 23:23:34 GMT: DEBUG (udf): (udf_rw.c:send_udf_failure:407) Non-special LDT or General UDF Error(...rospike/usr/udf/lua/convert_segment_list_to_integers.lua:2: bad argument #1 to 'maxn' (table expected, got userdata))
似乎maxn不是userdata对象的适用方法.
你能看到解决这个问题需要做些什么吗?
最佳答案 要将包含字符串值的列表转换为整数值列表,可以运行以下记录udf:
function convert_segment_list_to_integers(rec)
local list_with_ints = list()
for value in list.iterator(rec['segments']) do
local int_value = math.floor(tonumber(value))
list.append(list_with_ints, int_value)
end
rec['segments'] = list_with_ints
aerospike:update(rec)
end
编辑现有的lua模块时,请确保重新运行寄存器模块’convert_segment_list_to_integers.lua’.
这个问题的原因在于aerospike-loader工具:它总是假定/强制执行字符串,如下面的java代码所示:
case LIST:
/*
* Assumptions
* 1. Items are separated by a colon ','
* 2. Item value will be a string
* 3. List will be in double quotes
*
* No support for nested maps or nested lists
*
*/
List<String> list = new ArrayList<String>();
String[] listValues = binRawText.split(Constants.LIST_DELEMITER, -1);
if (listValues.length > 0) {
for (String value : listValues) {
list.add(value.trim());
}
bin = Bin.asList(binColumn.getBinNameHeader(), list);
} else {
bin = null;
log.error("Error: Cannot parse to a list: " + binRawText);
}
break;
来自Github的资料来源:http://git.io/vRAQW
如果您愿意,可以修改此代码并重新编译以始终采用整数列表值.将第266行和第270行更改为类似的内容(未经测试):
List<Integer> list = new ArrayList<Integer>();
list.add(Integer.parseInt(value.trim());