VS语音信号处理(1) C语言读取WAV语音文件文件头数据

VS语音信号处理(1) C语言读取WAV语音文件文件头数据

前言

语音识别相关算法一般在MATLAB上进行仿真验证与实验,在工程上一般还是在VS中进行实现落地,本系列将介绍语音信号处理在C语言中的一系列应用,后期将以此为基础,再落地移植到嵌入式平台。

语音文件的格式多种多样都存在不同的标准,在WAV格式的语音文件中主要包含两个部分:文件头与语音数据,本文将介绍读取WAV语音文件的文件头数据。WAV格式语音文件数据标准如下图所示。
《VS语音信号处理(1) C语言读取WAV语音文件文件头数据》

即前44位位文件头数据,44位之后为语音数据。

一. 工程实现

// ExtractData.h
// 读取wav格式语音文件文件头数据
// date:2022-4-27 22:44:36
// author : C.S

#ifndef _EXTRACTDATA_H_
#define _EXTRACTDATA_H_

#include <stdint.h>

typedef struct tagWAVHEADER { 
	uint8_t   ChunkID[4];     // 文档标识。 大写字符串"RIFF",标明该文件为有效的 RIFF 格式文档。
	uint32_t  ChunkSize;      // 文件数据长度。 从下一个字段首地址开始到文件末尾的总字节数。该字段的数值加 8 为当前文件的实际长度。
	uint8_t   Format[4];      // 文件格式类型。 所有 WAV 格式的文件此处为字符串"WAVE",标明该文件是 WAV 格式文件。
	uint8_t   FmtChunkID[4];  // 格式块标识。 小写字符串,"fmt "。
	uint32_t  FmtChunkSize;   // 格式块长度。 其数值不确定,取决于编码格式。可以是 16、 18 、20、40 等。
	uint16_t  AudioFormat;    // 编码格式代码。 常见的 WAV 文件使用 PCM 脉冲编码调制格式,该数值通常为 1。
	uint16_t  NumChannels;    // 声道个数。 单声道为 1,立体声或双声道为 2。
	uint32_t  SampleRate;     // 采样频率。 每个声道单位时间采样次数。常用的采样频率有 11025, 22050 和 44100 kHz。
	uint32_t  ByteRate;       // 数据传输速率。 该数值为:声道数×采样频率×每样本的数据位数/8。播放软件利用此值可以估计缓冲区的大小。
	uint16_t  BlockAlign;     // 数据块对齐单位。 采样帧大小。该数值为:声道数×位数/8。播放软件需要一次处理多个该值大小的字节数据,用该数值调整缓冲区。
	uint16_t  BitsPerSample;  // 采样位数。 存储每个采样值所用的二进制数位数。常见的位数有 4、8、12、16、24、32。
	uint8_t   DataChunkID[4];
	uint32_t  DataChunkSize;
} WAVHEADER;

#endif // #ifndef _EXTRACTDATA_H_
// ExtractData.cpp
// 读取wav格式语音文件文件头数据
// date:2022-4-27 22:44:36
// author : C.S


#include <stdio.h> 
#include<iostream>
#include<fstream>
#include<stdlib.h>
#include "ExtractData.h"

#define W 128 //每次读写文件的数据量 

int     FileSet = 0;                //定义一个整型变量, 用于保存fseek函数的返回值
int     FileEnd = 0;                //整个文件的字节数 
int     FileLength = 0;             //文件的数据长度。(注:每2个字节作为一个数据 )
short   InputData[W];               //文件读写数据缓冲区 

WAVHEADER    FileHeader;            //存文件头的结构体

void showWavHead(WAVHEADER Header) { 
	printf("ChunkID: %c%c%c%c\t", Header.ChunkID[0], Header.ChunkID[1], Header.ChunkID[2], Header.ChunkID[3]);
	printf("ChunkSize: %u\t", Header.ChunkSize);
	printf("Format: %c%c%c%c\n", Header.Format[0], Header.Format[1], Header.Format[2], Header.Format[3]);
	printf("FmtChunkID: %c%c%c%c\t", Header.FmtChunkID[0], Header.FmtChunkID[1], Header.FmtChunkID[2], Header.FmtChunkID[3]);
	printf("FmtChunkSize: %u\t", Header.FmtChunkSize);
	printf("AudioFormat: %d\t", Header.AudioFormat);
	printf("NumChannels: %d\t", Header.NumChannels);
	printf("SampleRate: %u\t", Header.SampleRate);
	printf("ByteRate: %u\t", Header.ByteRate);
	printf("BlockAlign: %d\t", Header.BlockAlign);
	printf("BitsPerSample: %d\n", Header.BitsPerSample);
	printf("DataChunkID: %c%c%c%c\t", Header.DataChunkID[0], Header.DataChunkID[1], Header.DataChunkID[2], Header.DataChunkID[3]);
	printf("DataChunkSize: %u\n", Header.DataChunkSize);
}

int main() { 
	FILE *Ifp, *txt;    //定义文件读写指针 

	Ifp = fopen("456.wav", "rb");    /*以只读方式打开wav文件*/
	txt = fopen("456.txt", "w");

	/* 获得文件字节数,fseek函数将文件内部指针指向文件末尾, ftell函数获取文件内部指针相对于文件头的偏移量,rewind函数将文件内部指针指向文件头 */
	fseek(Ifp, 0L, SEEK_END);
	FileEnd = ftell(Ifp);
	printf("total file size: %d bytes \n", FileEnd);
	rewind(Ifp);

	// 读取文件头,并打印部分信息,wav格式的文件头一般是44个字节,后面是音频数据
	fread(&FileHeader, 1, sizeof(WAVHEADER), Ifp);
	showWavHead(FileHeader);

	// 读取数据。这里的数据大小是2字节,按照实际格式改。while循环每次读写 W 个数据量,for循环写最后剩余的
	FileLength = FileEnd / 2;
	while (FileLength >= W) { 
		fread(InputData, sizeof(short), W, Ifp);
		for (int i = 0; i < W; i++) { 
			fprintf(txt, "%d\n", InputData[i]);
		}
		FileLength -= W;
	}

	fread(InputData, sizeof(short), FileLength, Ifp);
	for (int i = 0; i < FileLength; i++) { 
		fprintf(txt, "%d\n", InputData[i]);
	}

	char  *buf;
	long filesize;
	filesize = ftell(Ifp);//ftell求文件指针相对于0的便宜字节数,就求出了文件字节数
	buf = (char *)malloc(sizeof(char)*filesize);//开辟空间给缓存数组

	fread(buf, 1, (filesize - 44), Ifp);//每次读一个字节到buf,同时求读的次数

	return 0;
}

二. 结果

《VS语音信号处理(1) C语言读取WAV语音文件文件头数据》

三. 小结

WAV格式语音数据文件头数据中包含许多关键的语音文件信息如:

// 文档标识。 大写字符串”RIFF”,标明该文件为有效的 RIFF 格式文档。

// 文件数据长度。 从下一个字段首地址开始到文件末尾的总字节数。该字段的数值加 8 为当前文件的实际长度。

// 文件格式类型。 所有 WAV 格式的文件此处为字符串”WAVE”,标明该文件是 WAV 格式文件。

// 格式块标识。 小写字符串,”fmt “。

// 格式块长度。 其数值不确定,取决于编码格式。可以是 16、 18 、20、40 等。

// 编码格式代码。 常见的 WAV 文件使用 PCM 脉冲编码调制格式,该数值通常为 1。

// 声道个数。 单声道为 1,立体声或双声道为 2。

// 采样频率。 每个声道单位时间采样次数。常用的采样频率有11025,16000 , 22050 和 44100 Hz。

// 数据传输速率。 该数值为:声道数×采样频率×每样本的数据位数/8。播放软件利用此值可以估计缓冲区的大小。

// 数据块对齐单位。 采样帧大小。该数值为:声道数×位数/8。播放软件需要一次处理多个该值大小的字节数据,用该数值调整缓冲区。

// 采样位数。 存储每个采样值所用的二进制数位数。常见的位数有 4、8、12、16、24、32。

通过读取文件头数据信息,就可以得知语音文件数据的大多数格式信息,下一篇将介绍分段读取WAV语音文件中语音数据部分的实例。

    原文作者:mozun2020
    原文地址: https://blog.csdn.net/sinat_34897952/article/details/124462886
    本文转自网络文章,转载此文章仅为分享知识,如有侵权,请联系博主进行删除。
点赞