Разбор XML-файла C ++ с использованием TinyXML

У меня есть XML-файл
Этот файл состоит из блоков, строк, слов, символов:

 <block id="48" left="2532" top="108" right="2896" bottom="137">
<line id="49" left="2532" top="108" right="2896" bottom="137">
<word id="50" left="2532" top="108" right="2616" bottom="137" value='Date&quot;d&apos;' confidence="69" font="MP" type="-1">
<char id="51" left="2532" top="115" right="2550" bottom="137" value="D" confidence="92" />
<char id="52" left="2551" top="120" right="2565" bottom="137" value="a" confidence="51" />
<char id="53" left="2566" top="116" right="2574" bottom="137" value="t" confidence="33" />
<char id="54" left="2574" top="120" right="2589" bottom="136" value="e" confidence="100" />
<char id="55" left="2589" top="108" right="2592" bottom="112" value='&quot;' confidence="39" />
<char id="56" left="2597" top="115" right="2611" bottom="136" value="d" confidence="76" />
<char id="57" left="2612" top="115" right="2616" bottom="123" value="&apos;" confidence="100" />
</word>
  • Каждый блок состоит из 1, …, n строк
  • Каждая строка состоит из 1, …, k слов
  • Каждое слово состоит из 1, …, l символов

Я пытаюсь создать объекты следующим образом:

Block(int top, int left, int bottom, int right, vector<Lines>)
Line(int top, int left, int bottom, int right, vector<words>)
Word(int top, int left, int bottom, int right, vector<characters>)

Я использую TinyXML на C ++, но я не могу связать их вместе, мой код может принимать по одному объекту (блок, строка, слово, символ) за раз.

void Keywords::checkChild(TiXmlElement *child)
{
if(child)
{
if((string)child->Value() == "block")
{
cout << child->Value()<<endl;

double x1 = atoi(child->Attribute("left"));
double y1 = atoi(child->Attribute("top"));
double x2 = atoi(child->Attribute("right"));
double y2=  atoi(child->Attribute("bottom"));
int bid = atoi(child->Attribute("id"));
double xcenter =  (x1 + x2)/2.0;
double ycenter = (y1 + y2)/2.0;
double hauteur = y2-y1;
double largeur = x2-x1;
//LineList is a vector, and  I can't find a way to fill the vector
//  blockList.push_back(new Block(y1,x1,y2,x2,xcenter,ycenter,largeur,hauteur,xmlFile,lineList));
}

checkChild(child->FirstChildElement());

checkChild(child->NextSiblingElement());

}///end if child
}

1

Решение

Вместо того, чтобы пытаться построить дерево путем итерации по документу, имеет смысл проанализировать документ как древовидную структуру:

void parseFile(TiXmlElement* document, vector<Block*>& blocks)
{
for (TiXmlElement* sub = document->GetFirstChildElement("block"); sub; sub = sub->GetNextSiblingElement("block"))
blocks.push_back(parseBlock(sub));
}
Block* parseBlock(TiXmlElement* element)
{
double x1 = atof(element->Attribute("left"));
// ...
vector<Line*> lines;
for (TiXmlElement* sub = element->GetFirstChildElement("line"); sub; sub = sub->GetNextSiblingElement("line"))
lines.push_back(parseLine(sub));
return new Block(x1, ..., lines);
}
Line* parseLine(TiXmlElement* element)
{
double x1 = atof(element->Attribute("left"));
// ...
vector<Word*> words;
for (TiXmlElement* sub = element->GetFirstChildElement("word"); sub; sub = sub->GetNextSiblingElement("word"))
words.push_back(parseWord(sub));
return new Line(x1, ..., words);
}
Word* parseWord(TiXmlElement* element)
{
double x1 = atof(element->Attribute("left"));
// ...
vector<Char*> chars;
for (TiXmlElement* sub = element->GetFirstChildElement("char"); sub; sub = sub->GetNextSiblingElement("char"))
chars.push_back(parseChar(sub));
return new Word(x1, ..., chars);
}
Char* parseChar(TiXmlElement* element)
{
double x1 = atof(element->Attribute("left"));
// ...
return new Char(x1, ...);
}
2

Другие решения

Других решений пока нет …

По вопросам рекламы [email protected]